커리어 성장을 위한 최고의 실무교육 아카데미

후보 09 | VisionBridge
AI를 활용한 시각장애인을 위한 쇼핑 정보 지원서비스
상품 이미지 속 설명 텍스트와 관련된 사진 설명을 인공지능을 통해 제공해 주는 서비스

아이디어/솔루션 소개
본 공모작의 아이디어/솔루션

본 서비스는 쿠팡, 비마트와 같은 쇼핑몰에서 본인이 원하는 상품을 캡처하여 업로드 하면 인공 지능 서비스를 통해 이미지 내용을 면밀하게 분석하여 판매자가 업로드 한 상품에 대한 전체 텍스트와 사진 설명을 일반 텍스트로 제공하도록 만든 것입니다. 이렇게 정보가 일반 텍스트로 제공되면 시각장애인 사용자는 전혀 읽지 못하던 판매자가 게시한 상품 설명을 스크린 리더 만으로 읽을 수 있게 되어 옷이나 가구와 같은 경우를 제외하고는 상품 선택과 관련하여 다른 사람의 도움을 최소화 할 수 있게 됩니다. 제미나이 2.0 플래시 모델을 활용하였으며 프롬프트 엔지니어링 기법을 최대한 활용하여 상품 정보와 관련된 부분만을 추출하여 내용 및 사진을 최대한 정확하게 제공할 수 있도록 한 것이 특징입니다. 현재는 직접 상품 설명을 캡처해서 올려야 하는 것이 많이 아쉽지만 url 을 넣으면 해당 페이지에서 자동으로 상품 설명 영역만 전체 캡처되어 적용된다면 시각장애인들의 쇼핑 접근성에 혁신을 가지고 올 수 있을 거라 생각합니다.

기존 서비스와의 차별점
프롬프트 구성, 활용방식, 입력값, 출력값

[ 기획 배경 ]

쇼핑몰 사이트 혹은 앱에서 상품을 검색하게 되면 상품 정보를 확인할 수있어야 하는 것은 너무나 당연한 것입니다. 그런데 대부분 판매자들이 상품 설명 텍스트를 여러 사진과 함께 포토샵 이미지로 작업을 해서 업로드 하는 경우가 많습니다. 이렇게 되면 스크린 리더에 의존하여 정보를 탐색해야 하는 시각장애인의 경우 상품 설명 영역에 포커스 하면 읽어주는 것은 이미지 라는 정보 밖에 없습니다. 따라서 결론적으로 상품 정보를 전혀 읽지 못하고 그냥 구매하거나 아니면 항상 주위의 도움을 받아 상품 정보를 확인했어야만 했습니다. 극히 일부 쇼핑몰에서는 이 부분을 해결하기 위해서 상품 이미지에 있는 텍스트라도 추출해서 오씨알 해 주는 기능을 구현하여 제공하고 있습니다. 그러나 이 기술도 아예 없는 것보다는 당연히 너무 좋지만 텍스트 인식률 문제도 있고 표로 된 정보의 경우 그냥 줄글로 표시가 되어서 레이아웃을 이해할 수 없는 등의 한계도 존재합니다. 그래서 인공지능 기술을 활용해서 이 문제점을 해결하여 시각장애인도 가구나 옷과 같은 상품이 아닌 경우에는 최대한 스스로 상품 정보를 탐색할 수 있도록 해 보자는 기획을 하게 되었습니다.

[ 본 공모작의 우위점 ]

1. 정확한 텍스트 인식:
인공지능이 완벽하지는 않지만 여러 번 테스트를 한 결과 일반 오씨알 보다는 조금 더 정확한 텍스트 인식을 제공해 주는 것을 확인했습니다. 게다가 표로 된 부분은 실제 표로 출력해 줌으로써 이를 html 로 변환하여 스크린 리더에서 실제 표로 인식하도록 했습니다. 따라서 스크린 리더가 지원하는 표 탐색 기능을 활용하여 레이아웃 파악의 어려움이 확실히 줄어듭니다.

2. 사진 설명:
텍스트 뿐만 아니라 텍스트 중간중간 포함된 사진에 대해서도 대략적인 설명을 제공해 줌으로써 판매자가 제공한 텍스트의 불충분에 대한 추가 이해를 돕습니다.

3. 추가 질문:
현재는 프로토타입이라 직접 구현되어 있지는 않지만 인공지능 모델이 상품 설명 제공을 완료한 후에는 질문 편집창이 있어 추가 질문을 할 수 있도록 한다면 좀 더 도움을 받을 수 있을 것입니다.

AI 접목 방안
서비스에 적용된 AI 기술과 해당 기술(도구)를 선택한 이유와 AI 활용 아이디어의 세부내용 및 솔루션

현재는 프로토타입이라서 캡처된 이미지는 수동으로 업로드를 해야 합니다. 그리고 나머지는 다 인공지능이 상품 설명을 처리하여 마크다운으로 출력하고 이것을 웹에서는 html 로 변환하여 처리합니다. 만약 상품 설명 영역을 스크롤하면서 자동으로 찾아서 캡처까지 된다면 정말 이것은 혁신이 될 것입니다. 이 부분도 인공지능 기술을 활용할 수 있을 것이라 생각합니다.

프롬프트 활용도
프롬프트 구성 및 활용 방식

[ 핵심 ]

1. 상품 설명 이외의 영역이 함께 캡처되더라도 상품 설명 영역만 정확히 추출하도록 하였습니다.
2. 사진 설명의 경우 사진 설명 이라는 키워드를 주게 함으로써 상품 원본 설명 텍스트와 확실하게 구분이 되도록 했습니다.

define('SYSTEM_PROMPT', "You are a specialized AI assistant focused on extracting and analyzing product descriptions from images. Your role is to:
1. Extract ALL product-related content including:
　- Complete product descriptions
　- All specification tables
　- Seller's descriptions
　- Product features and details
　- Price information
　- Any additional product-related text
2. Present the information in markdown format with proper structure:
　- Use tables for specification data
　- Preserve all formatting and layout
　- Include all numerical values exactly as shown
3. Use clear section headers in Korean:
　- '## 상품 설명' for product descriptions
　- '## 상품 스펙' for specification tables
　- '## 판매자 설명' for seller's descriptions
4. For images within the product description:
　- Include image descriptions with the prefix '사진 설명: '
　- Place these descriptions where the images appear in the text
5. Do not omit any product-related text content
6. Present all information in Korean
7. If no product-related content is found, respond only with: '죄송합니다. 이 이미지에는 상품 설명과 관련된 내용이 없습니다.'
8. Do not include any information or images unrelated to the product (e.g., related products)");

define('USER_PROMPT', "Please analyze this image and:
1. Extract and present ALL product-related content including:
　- Every specification table in full
　- Complete product descriptions
　- All seller's descriptions and notes
　- Product features, details, and pricing
2. Format the output in markdown with:
　- Tables preserved exactly as shown
　- Original text formatting maintained
　- Clear section separation
3. For images within the product description:
　- Provide descriptions prefixed with '사진 설명: '
　- Insert these descriptions where the images appear in the text
4. Present all information in Korean
5. Do not omit any product-related text
6. Do not include information or descriptions of unrelated products or images
7. If no product-related content exists:
　- Respond only with '죄송합니다. 이 이미지에는 상품 설명과 관련된 내용이 없습니다.'
8. Please carefully analyze the image to ensure no information or text is omitted, and provide a thorough and complete output of all relevant content");

기대효과
확장/지속 가능성, 사회적 영향력

1. 시각장애인 스스로 상품 상세에 대한 정보를 충분히 탐색해 볼 수 있도록 합니다.
2. 누구도 소외 됨 없이 쇼핑을 자유롭게 할 수 있도록 한다는 사회적 가치를 실현할 수 있습니다.

데모 / 서비스 소개 영상

root layout

[공모작] Track03 : 09 - VisionBridge