후보 07 | 종지
시각장애인에게 필요한 AI기술,
웹툰을 오디오드라마로!

“이 웹툰 듣고 싶어” 한마디로 원하는 웹툰을 오디오 드라마로 즐기실 수 있게 하는 서비스

  • 아이디어/솔루션 소개
    본 공모작의 아이디어/솔루션

서비스 목적

시각 장애인분들이 원하는 웹툰을 오디오드라마로 즐길 수 있도록 제공

서비스의 필요성

- 여러 캐릭터가 연극하듯 말하는 콘텐츠는 목소리 연기할 수 있는 사람이 많이 필요하여 제작하기 어려움
- 시각장애인분들은 원하는 콘텐츠를 적시에 접하기 어려움. (자신에게 맞는 포맷으로 변환되기까지 기다려야 함)
- 상업적인 시장이 채워주지 못하는 사각지역임을 인지하고 이런 시장을 채워줄 기술 필요

서비스 설명

< 솔루션 1. 음성으로 “원하는 웹툰”을 바로 오디오드라마로 변환해주는 서비스 >
- 대상 : 시각장애인
- 내용
 · 음성 인터페이스 적용하여 이용자가 말만으로 오디오 콘텐츠에 접근할 수 있도록 함(openai realtime api)
 · 원하는 웹툰의 제목과 몇 화인지 정보를 말하면 변환 해놓은 오디오드라마가 있는지 확인
 · 원하는 웹툰이 저장소에 없을 경우, 검색하여 바로 각본작업과 오디오 변환과정을 거침
 · 현재 기술로는 한 편의 오디오드라마 생성까지 약 10분~15분 정도 소요

< 솔루션 2. 기관에서 빠르게 웹툰을 오디오 드라마로 변경할 수 있도록 전용 편집기 제작스 >
- 대상 : 시각장애인을 위한 복지기관, 공공기관
- 내용
 · 원하는 웹툰을 업로드 혹은 URL 입력
 · 왼쪽에 업로드 된 이미지를 바탕으로 오디오 드라마 각본이 오른쪽에 배치
 · 캐릭터 이름과 대사를 수정할 수 있고, 샘플 목소리를 듣고 성우를 설정할 수 있음
 · 정정된 대사들을 하나씩 들어볼 수 있으며, 전체 재생도 가능

기술적 구현

- 각본 생성: GPT-4o를 활용해 웹툰을 내레이션, 인물 대사, 효과음 등이 포함된 각본 형태로 변환
- 음성 합성: TTS 기술로 대사를 음성으로 변환, 캐릭터별로 목소리를 합성해 다양한 목소리를 생성
- 소리 병합: 대사, 효과음, 배경음을 조합해 완성된 오디오드라마 제공

UI/UX 설계

- 시각장애인분들의 접근성을 고려한 디자인 적용 음성 명령으로 작업을 간편하게 처리하도록 OpenAI Realtime API 활용
- 웹뿐만 아니라 모바일에서도 사용 가능하도록 웹뷰(WebView) 형식으로 지원.

| 장애인 스마트폰 보유율은 89.2%로 일반국민 스마트폰 보유율(96.1%)보다 6.9%p 낮은 수준임. 시각장애인의 모바일기기 보유율은 장애유형 중 높은 편에 속함 (92.8%)
- 과학기술정통부, 2023디지털정보격차보고서

  • 기존 서비스와의 차별점
    프롬프트 구성, 활용방식, 입력값, 출력값

[ 기획 배경 ]

시각장애인분들의 웹툰 접근성을 고려함. 선택지를 보았을 때 원하는 웹툰을 이용하기 어렵다고 느낌. 오디오 드라마로 변환하는 경우 제작사측에서 인물별로 성우를 투입하여 녹음하고 후처리 해야 했음. 시각장애인의 경우 웹툰을 즉시 듣기도 어렵고 오디오북은 언젠가 제작되기까지 기다려야 하는 어려움이 있음. 바로 생생하게 만들 수 있으면서 보고 싶은 콘텐츠의 접근성을 높이고자 함.

* 각 주제별 Pain Point

1. 시각장애인
- 시각장애인은 기존 웹툰 서비스를 이용하기 어려움.
- 웹,앱에서 지원하는 기능을 찾을 수 없음
- 원하는 콘텐츠가 시각장애인에게 맞는 포맷으로 변환되기까지 기다려야 함.
2. 오디오 콘텐츠 생산자
- 오디오드라마 제작사:
기존 오디오드라마 제작 방식은 대본작성부터 성우섭외, 녹음, 후처리까지 시간과 비용이 많이 들어감
- 화면해설작가:
기존 시장에서 장애인 콘텐츠의 변환은 화면해설, 음성해설 작가분들이 담당. 하지만 전문작가분들은 소수이며, 이 분들에게도 한편의 해설자막 생산은 시간이 많이 들어가는 작업이기에 많은 양을 커버하기 어려움
- 공공 · 복지기관 :
녹음도서를 제작하는 점자도서관이나 시각장애인복지관에서는 자원봉사자들로부터 낭독봉사를 통해 오디오북을 제작함. 자원봉사자들의 지원이 필요하며, 이 역시 다중캐릭터가 없는 낭독이 위주

즉, 한 오디오 콘텐츠가 나오기까지 긴 시간과 비용이 들어감. 또한 이를 만들 수 있는 자원(성우, 화면해설작가, 자원봉사자 등)도 한정적임.
따라서 시장에는 “적시”에 “시각장애인 분들이 이용하고 싶은 콘텐츠”를 들을 수 있도록 하는 기술이 필요


[ 본 공모작의 우위점 ]

기존 서비스 분석
N사에서 2022년~2023년 초에 ‘배리어프리 웹툰’을 시도하였으나 현재는 웹과 모바일에서 보이지 않음.

· 플레이오 : 소리로 보는 웹툰(배리어프리 웹툰), 한 시리즈 만 보유/ 네이버오디오 클립에서 구매
· 네이버 오디오클립: 웹툰 기반 오디오드라마를 성우 낭독/ 오디오북을 판매
· 윌라: 웹소설 기반으로 오디오 드라마를 제공,/성우, AI 낭독 / 구독
· 네이버 바이브: 전문음향기술로 오디오무비 제공, 배우, 제한된 콘텐츠개수

특징

· 성우들이 다양한 캐릭터를 직접 연기하고 이를 후처리 작업까지 하여 작품으로 완성
· 오디오북은 주로 단일화자의 목소리였음
· 오디오 콘텐츠도 플랫폼 별로 흩어져 있으며, 시각장애인이 접근하기 쉬운 플랫폼은 찾아보기 어려움
· 오디오드라마플랫폼은 마니아들을 타겟으로 하여, 성인용 로맨스장르 오디오가 주임. 시각장애인의 콘텐츠 선택권이 약함

제한된 AI 서비스의 장점

· 현재 제출한 우리팀의 서비스는 다양한 캐릭터별로 음색을 달리하고 있음.
· 한국어로, 웹툰(이미지)를, 스토리라인을 살려 다양한 감정표현이 가능한 목소리로 읽어주는 점이 장점
· “읽어줘” 한마디로 “원하는 웹툰”을 들을 수 있으며, 없다면 검색하여 오디오드라마까지 약 15분만에 생성 가능
· 복지기관에서 오디오 콘텐츠를 빠르게 생성할 수 있는 전용 편집기를 제공
· 1달러 미만으로 각본 생성, TTS는 이미 튜닝한 모델을 사용하기만 하면 됨. 오디오까지 생성하는데 비용이 1달러미만임

  • AI 접목 방안
    서비스에 적용된 AI 기술과 해당 기술(도구)를 선택한 이유와 AI 활용 아이디어의 세부내용 및 솔루션

[ 웹툰을 각본으로 변환 ]
GPT-4o를 사용하여 나레이션, 인물별 대사, 효과음 및 배경음을 구분하여 각본 생성 Gemini와 Claude도 테스트했으나 GPT-4o가 이미지 인식 및 각본 품질이 우수하여 채택 멀티모달 기능을 활용해 이미지 인식, 스토리 및 맥락 분석까지 분석 Structured Outputs 기능을 통해 JSON 형태로 각본 생성 캐릭터 설정을 유지하기 위해 캐릭터 DB를 구축하고 지속적으로 참조

[ 각본을 오디오로 변환 ]
● TTS(텍스트-음성 변환)
 - 한국어 대사와 감정을 살리기 위해 XTTS 기반으로 Coqui-TTS를 사용해 파인튜닝 진행
 - ElevenLabs API나 openai TTS API는 한국어 대사의 감정이 부족하여 오디오드라마에 부적합
 - AI 허브의 감정별 목소리 데이터를 활용해 모델 학습
 - 캐릭터별로 음성을 합성하여 다양한 목소리 확보
● 효과음 생성
 - ElevenLabs의 SoundEffect API를 활용하여 효과음 생성
● 최종 오디오드라마 완성
 - 생성된 대사, 배경음, 효과음을 조합하여 완성된 오디오드라마 산출

  • 프롬프트 활용도
    프롬프트 구성 및 활용 방식

[ 프롬프트 구성 ]

- 귀로만 들었을 때 어떻게 구성하는 것이 이해가 잘되고 듣기에 좋은지 먼저 생각해보고 정의
- 웹툰의 경우, 시각장면의 해석이 중요. 예를 들어, 말풍선을 있는 그대로 표현하기보다 이것이 의미하는 감정을 표현할 수 있도록 묘사
- Input으로 이전 웹툰 컷의 내용과 맥락을 전달

[ 형식 잡기 ]

- 각본을 audio 파일로 변환하기 위해서 각본이 json형식으로 나오길 기대
- 처음에는 GPT의 chat api를 사용하여 json 형식을 유도. 하지만 json이 “텍스트 문자열”로 나오기도 해서 오디오 대사 변환 시 종종 형식 오류가 발생했었음
- 출력 형식을 강제하기 위해 structured outputs 기능을 사용

[ 각본 만들 때 사용한 프롬프트 ]

You are an expert audio drama scriptwriter specializing in adapting visual content for visually impaired audiences. Your task is to convert a webtoon (comic) segment into a vivid, engaging audio drama script that effectively conveys the story and visuals through sound, dialogue, narration, and music.

### **Input Details**
1. Webtoon Image: Analyze the following webtoon image segment:
 < webtoon_image >
 {{WEBTOON_IMAGE}}
 < /webtoon_image >
2. Previous Context: Review the context from earlier parts of the webtoon:
 < previous_context >
 {{PREVIOUS_CONTEXT}}
 < /previous_context >

### **Preparation**
Before writing the script, analyze the scene and plan your approach inside `` tags. Address the following:
1. Visual Elements: List and number key visual elements, characters, and actions in the scene. Describe the panel layout and how it affects storytelling, if applicable.
2. Text Content: Extract and quote any dialogue, narration, or written information in the image.
3. Character Analysis: For each character, describe their expression, pose, voice tone, and any interactions.
4. Atmosphere: Define the mood, tone, and implicit emotional content of the scene.
5. Soundscape: List potential sound effects and background noises that enhance the scene (e.g., footsteps, wind).
6. Background Music: Suggest appropriate background music (genre, mood, tempo) and where it begins or ends.
7. Narrative Needs: Outline key visual details that need to be conveyed via narration for visually impaired listeners.
8. Scene Transition: Suggest a smooth transition from the previous context to this scene.
9. Narrative Structure: Plan the sequence of narration, dialogue, sound effects, and music for an immersive auditory experience.

### **Output Requirements**
Using the above analysis, create a complete audio drama script section in JSON format.
Ensure that:
1. Scene Description: Start with a vivid narration to set the scene.
2. Dialogue: Include all character dialogues in Korean, with emotions and tones explicitly stated.
3. Sound Effects: Add specific, detailed sound effects to build a realistic auditory environment. Use English for effect descriptions
(e.g., "door creaking").
4. Background Music: Integrate music that matches the mood and transitions seamlessly with the scene.
5. Consistency: Align with the previous context, including character names and story flow.
6. Narration in Korean, sfx in English.
7. narrator is character. so speaker_id is character_id.

Ensure that your script flows naturally from the previous context and creates a cohesive, engaging audio drama experience. Include all necessary elements such as scene descriptions, sound effects, and narration within the "dialogue" array, using appropriate "speaker_id" values
(e.g.,"sfx" for sound effects).

  • 기대효과
    확장/지속 가능성, 사회적 영향력

· 시각장애인 분들도 시설이나 집에서 자유롭게 원하는 웹툰을 바로 오디오드라마로 변환해서 생생하게 들을 수 있음.
· 생성형 AI시대에 다양한 콘텐츠가 생성되는데, 무한히 생성되는 콘텐츠를 장애인분들도 즐길 수 있도록 콘텐츠 전환기술이 되어줄 수 있음
· 현재는 대회 저작권문제로 인해 지정된 ‘공공 웹툰’을 사용했지만 인터넷에 올라와 있는 웹툰도 가능함.
· 시각장애인이 듣고 즐길 수 있는 다양한 컨텐츠를 제작하는 방향으로 확장함
· 배리어프리 콘텐츠 제작, 장애인분들의 창작 활동에도 AI기술 활용 기여함
· 시각장애인 복지를 위해 기관에서 더 빠르게 오디오 콘텐츠를 제공할 수 있도록 함

■ 우리 팀이 생각하는 AI기술이 장애인의 미디어 접근성에 미칠 수 있는 영향:

보건복지부 통계에 따르면 2023년 말 기준 등록된 시각장애인은 24만 8천명이다 1). 대한민국 전국민 5175만명에서 약 0.5% 정도의 인구다2). 상업적 시장에서 이들을 대상으로 한 제품과 서비스들은 수익을 내기 어려웠기에 일반국민과 같은 수준의 서비스를 누리기 위해서는 공공기관 등의 자본이 필요했다. 그 동안 시각장애인은 같은 웹툰 하나를 보더라도 누군가 오디오로 변환해주는 노력이 필요하며, 정보 접근성에 시차가 생겼다.

신체적인 제약들은 디지털 정보 격차가 되었다. 이는 인공지능 서비스에서도 그렇다. 과기부에서 물었던 인공지능 서비스 비경험이유에서 장애인들은 일반국민에 비해 이용할 기기/제품이 없어서 라는 응답이 높았다3). 즉, 실생활에서 인공지능서비스를 경험할 수 있는 제품과 서비스가 없거나 접근하기 어렵다는 의미로 보인다.

생성형 AI기술은 장애인들의 신체적 제약을 완하시키고 능동적으로 콘텐츠를 소비하게 할 수 있다. 우리가 제안하는 서비스 또한 평소에 알고 싶던 이미지 콘텐츠를 적은 시간과 노력으로 즐길 수 있게 해준다. 지금은 웹툰 만을 고려하였지만 다른 포맷의 콘텐츠도 오디오나 자막으로 손쉽게 바꿔줄 수 있도록 확장할 수 있다고 생각한다. 정보의 격차를 줄이고, 장애인의 삶을 변화시키기 위해서 현재의 생성형 AI기술들이 더욱 적극적으로 사용되어야 한다. 앞으로도 장애인들이 이용할 수 있는 제품과 서비스를 통해 미디어 접근성을 높이는데 기여할 것이다.

※각주
1) 등록장애인 현황 통계 ,한국장애인신문,이흥재,24.04.08,https://www.koreadisablednews.com/news/articleView.html?idxno=16914
2) KOSIS, 인구로 보는 대한민국, https://kosis.kr/visual/populationKorea/PopulationDashBoardMain.do
3) 인공지능 서비스 비경험이유를 물었을 때, ②아직 AI에 대해 잘 몰라서’(46.3%), ‘③이용할 기기/제품이 없어서’(48.9%), ‘⑦신체적제약으로 이용이 어려워서’(21.4%)는 일반국민에 비해 장애인에서 응답이 높게 나타났음 * *과학기술정통부, 2023디지털정보격차실태조사

※ 해당 서비스 개발에 사용된 데이터와 기술은 상업적 용도에 걸맞는 라이선스를 사용하였습니다. 별도자료 첨부. ※ 해당 서비스 자체가 저작권법에 위반되지 않음을 보이는 자료는 별도 자료로 첨부합니다.

  • 데모 / 서비스 소개 영상

솔루션 2가지를 소개합니다.

1. 음성으로 “원하는 웹툰”을 바로 오디오드라마로 변환해주는 서비스
2. 복지기관에서 빠르게 웹툰을 오디오 드라마로 변경할 수 있도록 하는 전용 편집기 제작