6개 AI 프로덕트로 완성하는 LLM/LMM 서비스 개발의 모든 것 : 프롬프트 엔지니어링부터 멀티모달까지

초격차 패키지 Online.
6개 AI 프로덕트로 완성하는
LLM/LMM 서비스 개발의 모든 것
프롬프트 엔지니어링부터 멀티모달까지

상용 AI 서비스 개발의 모든 것을 초압축한 커리큘럼으로,
단 77시간 만에 AI 서비스 개발자로 거듭나보세요.

6개 AI 프로덕트로 완성하는 LLM/LMM 서비스 개발의 모든 것 : 프롬프트 엔지니어링부터 멀티모달까지

정가~~530,000원~~

할인 금액(-50%) 270,000원

현재 판매가260,000원

월 21,667원

* 12개월 무이자 할부 시

바로 구매하기

상용 AI 서비스 개발에 필요한 모든 것을
배우기 위해 준비한 8가지 포인트

실제 IT 기업들의 AI 기능,
꼭 석박사 급 지식이 있어야 만들 수 있을까요?

[기존 AI 모델 + 프롬프트 엔지니어링] 만으로 내가 딱 원하는 AI 서비스를 구현하는 방법,
국내외 대기업 6개 서비스 99% 클론 프로젝트로 알려드릴게요.

Point 1

실제 프로덕트 수준으로 구현하는
유명 AI 서비스 6개

GPT-4V, DALL-E, Whisper 등 여러 모델과 프롬프팅 기법을 조합하여 6가지 AI 서비스를 클론합니다.
전체 서비스 파이프라인 구축, 프롬프트 이외 작업을 통한 성능 고도화, 그리고 프로토타이핑까지!

리멤* 명함 인식 기능

| 학습 내용
∙ OCR 성능을 높이기 위한 이미지 전처리 구현
∙ GPT-4 API를 활용한 Extractor 구현
∙ Streamlit 함수 구현을 통한 서비스 프로토타이핑

| 구현 기능

ImageSlide<b style="font-size:16px;">
이미지 내 텍스트 식별</b><br>
<span style="color: #313131;">오픈소스 OCR 프레임워크를 사용하여 <br>
이미지 내 텍스트 식별을 구현합니다.</span>

이미지 내 텍스트 식별
오픈소스 OCR 프레임워크를 사용하여
이미지 내 텍스트 식별을 구현합니다.

ImageSlide<b style="font-size:16px;">
이미지 내 텍스트 식별</b><br>
<span style="color: #313131;">
JSONL 파일을 Pandas 데이터 프레임으로 변환하여 <br>
검색 기능과 ‘엑셀로 내보내기’ 기능을 구현합니다.
</span>

이미지 내 텍스트 식별
JSONL 파일을 Pandas 데이터 프레임으로 변환하여
검색 기능과 ‘엑셀로 내보내기’ 기능을 구현합니다.

ImageSlide<b style="font-size:16px;">
이미지 전처리</b><br>

<span style="color: #313131;">
OpenCV를 사용하여 이미지를 회전, 흑백 처리, 테두리<br>제거 등 전처리하여 OCR 기능의 성능을 개선합니다.
</span>

이미지 전처리
OpenCV를 사용하여 이미지를 회전, 흑백 처리, 테두리
제거 등 전처리하여 OCR 기능의 성능을 개선합니다.

| 구현 프로세스

| 사용 스택

파파* 이미지 기반 번역 서비스

| 학습 내용
• LLM/LMM 활용을 통한 OCR/NMT 파이프라인 간소화
• OCR 성능 평가 방법론 (Precision, Recall, H-mean)
• 기계번역 성능 평가 방법론 (Bleu, Rouge Score..)
• LLM-as-a-Judge의 이해

| 구현 기능

ImageSlide<b style="font-size:16px;">
이미지 내 텍스트 식별</b><br>
<span style="color: #313131;">GPT-4V를 사용하여 이미지 내의 텍스트를<br>
높은 정확도로 인식합니다.</span>

이미지 내 텍스트 식별
GPT-4V를 사용하여 이미지 내의 텍스트를
높은 정확도로 인식합니다.

ImageSlide<b style="font-size:16px;">
이미지 내 텍스트 자동 번역</b><br>
<span style="color: #313131;">
Decoder-only NLG 모델로의 GPT-4 기반으로 번역<br>
기능을 구현하고, T2T 번역을 위한 번역 콘솔을
<br>구현합니다.
</span>

이미지 내 텍스트 자동 번역
Decoder-only NLG 모델로의 GPT-4 기반으로 번역
기능을 구현하고, T2T 번역을 위한 번역 콘솔을
구현합니다.

ImageSlide<b style="font-size:16px;">
번역 결과 수정</b><br>

<span style="color: #313131;">
이미지 내 추출된 텍스트 대상으로 사전 정보를<br>
프롬프트에 추가하여 정확도를 개선하고, 도메인 정보를 <br>추정하여 동음이의어의 품질을 개선합니다.
</span>

번역 결과 수정
이미지 내 추출된 텍스트 대상으로 사전 정보를
프롬프트에 추가하여 정확도를 개선하고, 도메인 정보를
추정하여 동음이의어의 품질을 개선합니다.

| 서비스 파이프라인

| 사용 스택

산타토* 토익스피킹 연습 서비스

| 학습 내용
• Langchain을 통한 Agent 구현
• Promptflow를 통한 프롬프트 시각화와 튜닝
• Visual Referring을 위한 Image Interaction 구현
• Medprompt 구현과 Embedding 활용

| 구현 기능

ImageSlide<b style="font-size:16px;">
텍스트 및 이미지 기반 대화</b><br>
<span style="color: #313131;">발화자를 상대하는 튜터가 텍스트와 이미지의 의미를<br>
모두 이해하게 합니다.</span>

텍스트 및 이미지 기반 대화
발화자를 상대하는 튜터가 텍스트와 이미지의 의미를
모두 이해하게 합니다.

ImageSlide<b style="font-size:16px;">
음성 인식 기반 발음 평가</b><br>
<span style="color: #313131;">
발화자의 음성을 인식하여 발음을<br>
평가 및 교정합니다.
</span>

음성 인식 기반 발음 평가
발화자의 음성을 인식하여 발음을
평가 및 교정합니다.

ImageSlide<b style="font-size:16px;">
문제 및 정답 낭독</b><br>

<span style="color: #313131;">
튜터가 토익스피킹 문제와 정답을 TTS로<br>
모두 낭독하게 합니다.
</span>

문제 및 정답 낭독
튜터가 토익스피킹 문제와 정답을 TTS로
모두 낭독하게 합니다.

| 서비스 파이프라인

| 사용 스택

클로바노* 자동 회의록 작성 서비스

| 학습 내용
• 음성 파일 전처리
• 화자 특징 추출
• 화자 벡터 클러스터링

| 구현 기능

ImageSlide<b style="font-size:16px;">
음성 인식</b><br>
<span style="color: #313131;">음성 합성 파일을 이용하여
Whisper의 API를<br>호출함으로써 음성 인식을 구현합니다.</span>

음성 인식
음성 합성 파일을 이용하여 Whisper의 API를
호출함으로써 음성 인식을 구현합니다.

ImageSlide<b style="font-size:16px;">
화자 분리</b><br>
<span style="color: #313131;">
오픈소스 모델을 사용하여 화자를 분리합니다.
</span>

화자 분리
오픈소스 모델을 사용하여 화자를 분리합니다.

ImageSlide<b style="font-size:16px;">
키워드 추출 & 발화 내용 요약</b><br>

<span style="color: #313131;">
GPT-4로 변환된 텍스트의 개요, 주제, 핵심 내용 등<br>
전체를 요약하거나 특정 주제나 구역의<br>
내용을 요약해봅니다.
</span>

키워드 추출 & 발화 내용 요약
GPT-4로 변환된 텍스트의 개요, 주제, 핵심 내용 등
전체를 요약하거나 특정 주제나 구역의
내용을 요약해봅니다.

| 서비스 파이프라인

| 사용 스택

구글쇼* 가상 시착 서비스

| 학습 내용
• Image Conditioning
• Image-to-3D Generation
• ComfyUI 워크플로우의 이해

| 구현 기능

ImageSlide<b style="font-size:16px;">
모델 체형 기반 착용 이미지 생성</b><br>
<span style="color: #313131;">Image Conditioning을 기반으로 모델 체형<br>
기반의 가상 시착 이미지를 생성합니다.</span>

모델 체형 기반 착용 이미지 생성
Image Conditioning을 기반으로 모델 체형
기반의 가상 시착 이미지를 생성합니다.

ImageSlide<b style="font-size:16px;">
360도 회전 기능</b><br>
<span style="color: #313131;">
ComfyUI Workflow에 Image-to-3D를<br>
추가하여 360도로 모델을 회전할 수 있게 합니다.
</span>

360도 회전 기능
ComfyUI Workflow에 Image-to-3D를
추가하여 360도로 모델을 회전할 수 있게 합니다.

ImageSlide<b style="font-size:16px;">
패션 피드백 기능</b><br>

<span style="color: #313131;">
GPT-4V API에 Few-shot Prompt로<br>
조합한 옷에 대한 피드백 기능 구현
</span>

패션 피드백 기능
GPT-4V API에 Few-shot Prompt로
조합한 옷에 대한 피드백 기능 구현

| 구현 프로세스

| 사용 스택

여기어* CS 챗봇

| 학습 내용
• 챗봇 구성에 필요한 개념 (의도 분류, 슬롯 필링, 정보 검색, 기억과 개인화)
• Multli-Turn Chat
• Function Calling

| 구현 기능

ImageSlide<b style="font-size:16px;">
내부 상품 추천</b><br>
<span style="color: #313131;">사용자 인풋의 표면적, 이면적 의미를 이해하고<br>
이에 맞는 상품을 추천합니다.</span>

내부 상품 추천
사용자 인풋의 표면적, 이면적 의미를 이해하고
이에 맞는 상품을 추천합니다.

ImageSlide<b style="font-size:16px;">
내부 DB 기반 질의응답</b><br>
<span style="color: #313131;">
내부의 CS 매뉴얼 데이터를 기반으로 CS에<br>
자동 대응하는 알고리즘을 짭니다.
</span>

내부 DB 기반 질의응답
내부의 CS 매뉴얼 데이터를 기반으로 CS에
자동 대응하는 알고리즘을 짭니다.

| 구현 프로세스

| 사용 스택

Final Project
실무 필수, 핵심 단계! 기존 서비스 통합으로 완성하는 AI 기능 개발

이런 분들에게 강력 추천합니다.

여기어* 앱에 CS 챗봇 통합하기

| 학습 목표

기존 서비스 파이프라인에 LLM 기반 AI 기능 통합하여, 챗봇을 통해
서비스의 핵심 기능을 하는 페이지로 유저를 연결시킵니다.

| 학습 내용

• 자체 모델 기반 ML 파이프라인과 API 사용 시의 차이
• 맥락 위주의 자동 학습 및 유사성 검색 구현
• OpenAI를 활용한 OpenQA 구현

| 진행 프로세스

새로운 AI 서비스를 만드는 상황도,
AI 기능을 추가하는 상황도 완.벽.대.비

Point 2

텍스트를 넘어 이미지까지!
기초-고급 프롬프팅 기법 11가지 완벽 커버

정확히 내가 원하는 AI 기능을 구현하기 위해서는 상황에 맞는 프롬프팅 기법을 사용해야 합니다.
텍스트를 넘어 이미지, 오디오까지 다루는 고급 & 최신 프롬프팅 개념을 완벽 커버합니다.

OpenAI 기반의 유명 LLM/LMM과 기타 모델 9가지 활용까지!

Step 1. 고급 프롬프팅 - 텍스트(GPT)

❶ Zero Shot Learning

추가적인 학습 없이 새로운 데이터를 예측할 수 있게 하는 기법.
많은 양의 라벨링된 학습 데이터가 필요하지 않다.

| 언제 사용하나요?
• 대규모 언어모델(LLM) 환경일 시
• 단순한 감정 분석이 필요할 시
❷ One Shot Learning

한정된 양의 입력 데이터를 사용해 자연어 텍스트를 생성하는 기법.
Q, A의 형식으로 되어있어 비슷하게 질문과 답변을 생성할 수 있다.

| 언제 사용하나요?
• 대규모 언어모델(LLM) 환경일 시
• 단순한 감정 분석이 필요할 시

❸ Few Shot Learning

2-5개 사이의 예시를 제공하여 모델이 이에 적응하게 하는 기법.
다양한 자연어 표현을 이해할 수 있지만 예시의 개수나 순서에 따라
성능이 달라지건 예시와 비슷한 텍스트만 생성할 수 있다.

| 언제 사용하나요?
• 입력 데이터가 적은 상태에서 자연어 텍스트를 생성할 때
• 템플릿이나 라벨 단어와 같은 복잡한 디자인이 어려울 때
❹ Chain-of-Thought Learning

모델이 중간 단계의 결과물을 생성하고 이를 다음 단계의
입력으로 사용하게 하는 기법.
복잡한 다단계 추론을 요구하는 작업에 유리하다.

| 언제 사용하나요?
• 잡한 다단계 추론이 필요할 때

Step 2. 기초 프롬프팅 - 오디오 (Whisper)

❺ Transcribe (받아쓰기)

음성 받아쓰기를 통한 실시간 텍스트 입력 및 문서 생성 시 사용.
실시간 음성 기록 및 사전 녹음 된 음성에 대해서도 사용 가능.

| 언제 사용하나요?
• 통화, 회의, 영상 등을 기록하거나 자막을 달 시
• 대화를 요약하거나 감정, 핵심 주제 등을 분석할 시
❻ Translate (번역)

라이브 오디오나 미리 녹음 된 오디오를 한 언어에서 다른 언어로
번역할 시

| 언제 사용하나요?
• 실시간 대화에서 동시 통역 시
• 영상의 자막 생성 시

❼ AccuracyScore (문법 교정)

라이브 오디오나 미리 녹음된 오디오에서 화자의 음성을 텍스트로
변환할 시 문법을 자동 교정.

| 언제 사용하나요?
• 언어 교육 및 회화 시
• 모든 종류의 받아쓰기 시
❽ FluencyScore (발음 평가)

라이브 오디오나 미리 녹음된 오디오에서 화자의 음성 발음을
평가 할 시

| 언제 사용하나요?
• 언어 교육 및 회화 시

Step 3. 고급 프롬프팅 - 이미지 (GPT-4V)

❾ Visual Pointing & Visual Referring Prompting

이미지 위에 화살표, 상자, 원 등으로 특정 구역을 표시하여 해당 구역에 대한 설명을 이끌어내는 프롬프팅 기법.

| 언제 사용하나요?
• 통화, 회의, 영상 등을 기록하거나 자막을 달 시
• 대화를 요약하거나 감정, 핵심 주제 등을 분석할 시

| 활용 프로젝트

❿ Visual + Text Prompting

텍스트 프롬프트에 더해 사진으로 예시를 주어
정답을 추론하게 하는 멀티모달 프롬프팅 기법

| 언제 사용하나요?
• 예측하고자 하는 데이터의 예시 이미지를 보유하고 있을 때
⓫ In-Context Few-Shot Learning

텍스트 프롬프트의 문맥을 이해하기 위한 2-5개의 이미지를
함께 제시하는 Few-shot Learning의 LMM 버전.

| 언제 사용하나요?
• 예측하고자 하는 데이터의 예시 이미지를 다양하게 여러 장 보유하고 있을 때

가장 강력한 멀티모달 모델, GPT-4V 기반의 프로젝트로
적재적소에 멀티모달 프롬프팅을 실습하고 현업에 적용해보세요.

Point 3

고성능 AI 서비스를 위한 현업자의 비책!
단계별 성능 & 비용 최적화 노하우

고객의 만족도를 결정짓는 ‘성능’! 고성능 AI 서비스는 어떻게 구성되어 있을까요?
유명 AI 서비스 뒤 현업자들의 서비스 단계별 성능 & 비용 최적화 노하우를 알려드립니다.

Text

ImageSlide<span style="color: #D3D3D3;">
• 사용자 감정 분석하기<br>
• 사용자 의도 유추하기 (슬롯 필링)
</span>

• 사용자 감정 분석하기
• 사용자 의도 유추하기 (슬롯 필링)

ImageSlide<span style="color: #D3D3D3;">
• Knowledge Base 기반 답변 생성<br>
• 사용자 의도에 따른 타 기능 연결
</span>

• Knowledge Base 기반 답변 생성
• 사용자 의도에 따른 타 기능 연결

ImageSlide<span style="color: #D3D3D3;">
• 브랜드 이미지에 따라<br>
ㅤ답변 어투 수정하기
</span>

• 브랜드 이미지에 따라
ㅤ답변 어투 수정하기

Text & Image

ImageSlide<span style="color: #D3D3D3;">
• 이미지 자동 회전 구현<br>
• 자동 노이즈 감소 구현
</span>

• 이미지 자동 회전 구현
• 자동 노이즈 감소 구현

ImageSlide<span style="color: #D3D3D3;">
• 저품질 or 비정형 레이아웃의 문서가<br>
ㅤ입력될 시 해결 방법
</span>

• 저품질 or 비정형 레이아웃의 문서가
ㅤ입력될 시 해결 방법

ImageSlide<span style="color: #D3D3D3;">
• 인식된 텍스트 영역 수정<br>
• 인식된 텍스트 배치 수정
</span>

• 인식된 텍스트 영역 수정
• 인식된 텍스트 배치 수정

ImageSlide<span style="color: #D3D3D3;">
• 여러 기법으로 번역 성능 평가하기 <br>
• Translation Memory 매칭으로 번역 품질 개선하기<br>
• 기계번역 품질 저하 사례 공유 및 해결 방법
</span>

• 여러 기법으로 번역 성능 평가하기
• Translation Memory 매칭으로 번역 품질 개선하기
• 기계번역 품질 저하 사례 공유 및 해결 방법

ImageSlide<span style="color: #D3D3D3;">
• 개인정보 처리 및 저장 전략<br>
• 비용 추산 및 비즈니스 효과 추산하기
</span>

• 개인정보 처리 및 저장 전략
• 비용 추산 및 비즈니스 효과 추산하기

ImageSlide<span style="color: #D3D3D3;">
• ChatGPT를 통한 이미지 생성이 불가 시 우회 방법<br>
• Stable Diffusion ComfyUI를 통한<br>ㅤ이미지 덮어씌우기<br>
• Image to 3D Generation 워크플로우 구현
</span>

• ChatGPT를 통한 이미지 생성이 불가 시 우회 방법
• Stable Diffusion ComfyUI를 통한
ㅤ이미지 덮어씌우기
• Image to 3D Generation 워크플로우 구현

• Inpaint로 이미지 후처리하기

Text & Image & Audio

ImageSlide<span style="color: #D3D3D3;">
• 시각화 도구를 사용하여 프롬프트 튜닝<br>
• Image Interaction을 위한 Scribble UI 구현
</span>

• 시각화 도구를 사용하여 프롬프트 튜닝
• Image Interaction을 위한 Scribble UI 구현

ImageSlide<span style="color: #D3D3D3;">
• Whisper의 정확도 평가 기능(AccuracyScore)을  <br>ㅤ사용하기
</span>

• Whisper의 정확도 평가 기능(AccuracyScore)을 
ㅤ사용하기

ImageSlide<span style="color: #D3D3D3;">
• 서비스 확장을 위한  추가 기능 구현 추천<br>ㅤ(관련 기술 등)
</span>

• 서비스 확장을 위한  추가 기능 구현 추천
ㅤ(관련 기술 등)

ImageSlide<span style="color: #D3D3D3;">
• Whisper 파인튜닝하기  <br>ㅤ(고품질 학습 데이터 선정, 음성 데이터 분할 등)
</span>

• Whisper 파인튜닝하기 
ㅤ(고품질 학습 데이터 선정, 음성 데이터 분할 등)

• 음성 인식 시스템에 맞춘 프롬프트 튜닝

• Whisper의 발음 평가 기능을 사용하기

ImageSlide<span style="color: #D3D3D3;">
• 사용자 답변의 정확도, 발음 평가 결과를 반영하여<br>ㅤ텍스트 답변 생성하고 내보내기<br>
• 사용자 답변의 맥락을 반영하여 텍스트 답변 생성하기
</span>

• 사용자 답변의 정확도, 발음 평가 결과를 반영하여
ㅤ텍스트 답변 생성하고 내보내기
• 사용자 답변의 맥락을 반영하여 텍스트 답변 생성하기

• Whisper로 TTS 구현하기

Text & Audio

ImageSlide<span style="color: #D3D3D3;">
• 화자 분리 모델로 복잡한  <br>ㅤ음성 전처리 과정 대신하기
</span>

• 화자 분리 모델로 복잡한 
ㅤ음성 전처리 과정 대신하기

ImageSlide<span style="color: #D3D3D3;">
• Whisper API를 사용하여  <br>ㅤ음성 인식 기능 구현하기
</span>

• Whisper API를 사용하여 
ㅤ음성 인식 기능 구현하기

ImageSlide<span style="color: #D3D3D3;">
• 화자의 발화가 겹쳤을 때 처리 방법<br>
• pyannote와 simple-diarizer 장단점 비교<br>
• 음성파일을 python환경에서 wav파일로 컨버팅하기
</span>

• 화자의 발화가 겹쳤을 때 처리 방법
• pyannote와 simple-diarizer 장단점 비교
• 음성파일을 python환경에서 wav파일로 컨버팅하기

ImageSlide<span style="color: #D3D3D3;">
• OpenAI GPT API를 사용하여  <br>ㅤ키워드 추출 구현하기
</span>

• OpenAI GPT API를 사용하여 
ㅤ키워드 추출 구현하기

ImageSlide<span style="color: #D3D3D3;">
• 다양한 발화 상황에서 음성노트 성능 테스트하기<br>
• 직접 기능을 구현하고 운용하는 비용과<br>ㅤ
API를 활용한 운용 비용의 차이 분석하기
</span>

• 다양한 발화 상황에서 음성노트 성능 테스트하기
• 직접 기능을 구현하고 운용하는 비용과
ㅤ API를 활용한 운용 비용의 차이 분석하기

강사님들이 현업에서 직접 문제를 마주하여 얻어낸 노하우를 통해
평균 5년 이상의 실전 AI 서비스 개발 경력을 체화해보세요.

잠깐, 이거 다 좋긴 한데...

걱정하지 마세요!
현업의 AI 서비스 개발을 위한 단계별 가이드를 마련했습니다.

Point 4

현업의 AI 서비스 개발을 위한 체계적인 5-Step 커리큘럼

AI에 대한 기초적 이해부터 AI 기능 개발, 유지보수까지!
일반 개발자, 혹은 데이터 직군이 현업에 LLM/LMM을 적용하기 위한 단계별 가이드를 제시합니다.

단 하나의 강의로,
LLM 사용 경험부터 실질적 도입까지 모두 잡아보세요.

Point 5

현업의 AI 기능 개발을 도와줄 풍성한 부록

현업에서, 혹은 개인 차원에서 LLM/LMM 기반 기능을 만들 시
효율성과 재미를 올려줄 풍성한 부록을 준비했습니다.

Point 6

유명 상용 AI 프로덕트를 만든 현업자 강사진

성공하는 AI 서비스 뒤에는 유능한 AI 엔지니어들의 노하우가 있다!
삼성전자, 뤼튼, 뤼이드 등 국내 탑급 대기업 & AI 스타트업 출신 강사들의 실전 개발 이야기.

김동주 님

현) LG유플러스 - Technical Project Manager
전) 신한AI - Backend Developer
전) 한화시스템 - Cloud Native Architect

AX(AI Transformation)역량은 누군가의 전유물이 아닙니다. 생성형 AI의 LLM/LMM에 대한 기초 작동 원리를 쉽게 이해하면서 이를 활용한 서비스를 점진적으로 구현해나가는 방법에 대해 알려드리겠습니다.

Sungwoo 님

- 현) 금융권 K사 AI Engineer
- 현) 한국금융인공지능연구원(KIFAI) 오픈소스 프로젝트 활동 중
- 7년간 1000명+ 인공지능 교육 및 멘토링 경험 (타플랫폼 및 대학교 경력 다수)
- 다년간의 언어모델 개발 및 튜닝 경험을 바탕으로 챗봇 등 다양한 애플리케이션 개발
- 한국어와 영어, 코드를 위한 Pretrained LLM ‘GECKO’ 오픈소스 프로젝트 리더

제품화 자체에 집중하여, AI의 원리에 대한 복잡한 설명보단 실전에서 쓸 수 있는 실질적 기술을 알려드리겠습니다. AI 모델 하나하나를 학습하기 전에 기학습된 ML 모델들의 flow부터 구성하며 발빠른 서비스 구현 방법을 익혀보세요.

LH 님

현) 이커머스 AI 솔루션 기업 CTO

이커머스 도메인에 특화된 AI 솔루션 기업에서 CTO로 근무하며 얻었던 Production-Level의 AI 기능 구현 경험을 알찬 프로젝트로 수강생 여러분과 공유하겠습니다.

Q&A
강사님과 AI가 답변하는 질의응답 게시판

* 본 채널은 2024.5.8 ~ 2027.4.8 동안 운영 됩니다.
* 강사님이 채널에 입장하시지만 답변이 필수로 제공되지 않는 커뮤니티 형식의 공간입니다.
* 강사님이 현업 중 답변하시기에 답변까지 영업일 기준 7일 내외 시간이 소요될 수 있습니다.

이 모든 혜택을 압도적인 가성비로!
국내 최대 77시간 분량 & 수강료는 타사대비 1/5

어디가서 배웠다고 말하기도 애매한 몇 시간 짜리 강의, 여러 개 찾아 듣기 불편한데다 가격도 비싸죠.
비교할 수 없는 초격차 패키지 강의를, 가장 저렴하게 평생 소장하세요!

6개 AI 프로덕트로 완성하는 LLM/LMM 서비스 개발의 모든 것 : 프롬프트 엔지니어링부터 멀티모달까지

정가~~530,000원~~

할인 금액(-50%) 270,000원

현재 판매가260,000원

월 21,667원

* 12개월 무이자 할부 시

바로 구매하기

상세 커리큘럼

* 선수 지식 부록 (Bonus) 파트의 경우 [딥러닝·인공지능 Signature 초격차 패키지 Online.] 강의의 Part 1 - Chapter 3와 동일한 영상입니다.
* 해당 강의의 Part 1-3에서 사용되는 ChatGPT API인 '플레이그라운드'가 유료로 전환됨으로써, 강의를 진행하는 동안 10만원 이내의 과금이 발생합니다.

Part 0. 딥러닝을 시작하기 전에

01. 파이썬

• 온라인 개발 환경(Colab과 Repl.it)
• 로컬 개발 환경
• 기본적인 입출력
• 수 자료형
• 문자열 자료형
• 리스트, 튜플 자료형
• 딕셔너리, 집합 자료형
• 참/거짓 자료형
• 조건문
• 반복문
• 파일 입출력
• 함수의 이해와 활용
• 클래스의 이해와 활용
• 모듈의 이해와 활용
• 예외 처리

Part 1. LLM/LMM의 이해 - Text

01. Introduction

• 강의 소개

02. ChatGPT에 대한 이해

• ChatGPT 소개
• ChatGPT 작동 원리
• ChatGPT 기능 살펴보기
• LLM 활용 살펴보기
• ChatGPT API 활용

03. ChatGPT 기반 LLM 활용의 이해

• LLM Orchestration
• LLM Orchestration 실습
• Retrieval Augmented Generation(RAG)
• Retrieval Augmented Generation(RAG) 실습

04. 프롬프트 엔지니어링에 대한 이해

• 프롬프트 엔지니어링의 필요성
• 프롬프트 엔지니어링의 구성 요소(1)
• 프롬프트 엔지니어링의 구성 요소(2)
• 프롬프트 엔지니어링의 기술(1)
• 프롬프트 엔지니어링의 기술(2)

05. LLM 프레임워크에 대한 이해

• LLM 프레임워크의 필요성
• Langchain의 이해
• Langchain 실습

06. ChatGPT 기반 LLM 활용 서비스 개발

• Vector DB의 이해
• Vector DB 실습
• 웹서치의 이해
• 웹서치 실습
• Memory의 이해
• Memory 실습
• 실습 리뷰

07. 생성형 AI의 활용 및 방향성

• LLM 활용 심화 살펴보기(1)
• LLM 활용 심화 살펴보기(2)

Part 2. LLM/LMM의 이해 - Multimodal (1)

01. Introduction

• 강의 소개

02. DALLE/Whisper에 대한 이해

• DALLE/Whisper 소개
• DALLE/Whisper 기능 살펴보기
• LMM 활용 살펴보기
• DALLE/Whisper API 활용

03. DALLE 기반 프롬프트 엔지니어링의 이해

• 프롬프트 엔지니어링의 기술(1)
• 프롬프트 엔지니어링의 기술(2)

04. ChatGPT와 연계하는 DALLE/Whisper 서비스 개발

• DALLE 실습
• Whisper 실습
• LMM Orchestration 실습

Part 3. LLM/LMM의 이해 - Multimodal (2)

01. Introduction

• Introduction

02. Multi Modal Model에 대한 이해

• Vision 소개
• Vision 기능 살펴보기
• LMM 활용 살펴보기
• LMM Prompting(1)
• LMM Prompting(2)
• LMM Prompting(3)

03. LMM 기반 생성형 AI의 활용 및 방향성

• LMM 활용 심화 살펴보기(1)
• LMM 활용 심화 살펴보기(2)

04. 마무리

• LLM/LLM의 이해 리뷰

Part 4. 클로바노* st 음성 노트 만들기

01. 음성노트 개요

• 음성노트란 무엇인가
• 클로바노트 기능 살펴보기
• 실습 환경 살펴보기
• 아키텍처 설명 및 강의 Overview

02. 개발 환경 세팅

• 개발환경 세팅

03. 음성노트를 위한 OpenAI API

• 음성노트 실습을 위한 OpenAI API 소개

04. 음성인식 (Automatic Speech Recognition)

• 오디오 처리란
• 오디오 처리 실습
• 음성인식이란 (1)
• 음성인식이란 (2)
• Whisper 소개

05. 화자분리 (Speaker Diarization)

• 화자분리란
• CPU 환경에서 화자분리 실습
• GPU 환경에서 화자분리 실습

06. 음성노트를 위한 GPT

• 음성노트를 위한 GPT-4
• 음성노트를 위한 GPT-4 실습

07. 음성노트를 위한 Streamlit

• 음성노트를 위한 Streamlit 소개
• Streamlit 기본 컴포넌트 실습
• Streamlit 상호작용 컴포넌트 실습

08. 서비스 구현 및 테스트

• 서비스 구현을 위한 프론트 만들기 (1)
• 서비스 구현을 위한 프론트 만들기 (2)
• 서비스 구현을 위한 백엔드 만들기 (1)
• 서비스 구현을 위한 백엔드 만들기 (2)
• 실습을 위한 테스트 비용 계산

Part 5. 파파고 st 이미지 번역기 만들기

01. 기계번역기 개요

• 기계번역이란 무엇인가
• 휴먼번역과 기계번역의 특징과 차이
• 휴먼번역과 기계번역의 유용한 상황
• 휴먼번역과 기계번역의 비즈니스 모델 탐구

02. 파파고 기능 살펴보기

• 파파고 기능 살펴보기 (1)
• 파파고 기능 살펴보기 (2)
• 실습환경 Overview
• 실습을 통해 구현할 기능
• 클론 서비스 아키텍처 설명

03. 이미지 기계번역 (Image Translation)

• 이미지 기계번역이란?
• 이미지 기계번역을 위한 광학문자인식(OCR)
• 이미지 기계번역을 위한 일반적인 OCR 파이프라인 소개
• 신경망 기계 번역(Neural Machine Translation) 소개
• 이미지 기계번역을 위한 일반적인 NMT 파이프라인 소개
• GPT4와 GPT4V를 활용한 이미지 기계번역 기능 구현

04. 이미지 기계번역의 성능 평가

• 기계번역기의 OCR 성능 평가 방법 소개
• 기계번역기의 번역 성능 평가 방법 소개
• 기계번역 품질을 평가하기 위한 LLM 활용 방법 소개

05. 이미지 기계번역기를 위한 Streamlit

• 이미지 기계번역기를 위한 Streamlit 설명
• 기본 컴포넌트 소개
• 함수기능 연동

06. 서비스 구현 및 테스트

• Streamlit 기반 이미지 기계번역기 웹앱 만들기
• 함수 기능 구현하기
• 함수 기능 연동하기
• 서비스 파급효과 추산

07. 이미지 기계번역기 서비스 구현

• 서비스 구현 실습
• 구현된 서비스 테스트

Part 6. 리멤* st 디지털 명함지갑 만들기

01. 디지털 명함지갑 개요

• 디지털 명함지갑이란 무엇인가
• 리멤버 기능 살펴보기
• 실습 Overview
• 실습환경 Overview 실습 (1)
• 실습환경 Overview 실습 (2)

02. 이미지 Prompting

• GPT-4 기반 이미지 Prompting 실습 (1)
• GPT-4 기반 이미지 Prompting 실습 (2)
• GPT-4 기반 이미지 Prompting 실습 (3)

03. 광학문자인식 (Optical Character Recognition)

• 광학문자인식(OCR)이란
• 명함 이미지 전처리 실습 (1)
• 명함 이미지 전처리 실습 (2)
• 텍스트 Detection 실습 (1)
• 텍스트 Detection 실습 (2)
• 텍스트 Detection 실습 (3)
• 텍스트 Recognition 실습 (1)
• 텍스트 Recognition 실습 (2)
• 정보추출 Information Extraction 실습 (1)
• 정보추출 Information Extraction 실습 (2)
• 정보추출 Information Extraction 실습 (3)
• GPT-4 기반 E2E 명함 정보추출 실습
• 개인정보 추출과 가드레일

04. 디지털 명함지갑을 위한 Streamlit

• 디지털 명함지갑을 위한 Streamlit
• Streamlit 컴포넌트 실습 (1)
• Streamlit 컴포넌트 실습 (2)

05. 디지털 명함지갑 서비스 구현

• Streamlit 기반 디지털 명함지갑 웹앱 만들기
• 디지털 명함지갑 기능 구현 및 연동

Part 7. 구글쇼* st 가상시착 서비스 만들기

01. 가상시착 서비스 개요

• 쇼핑 산업과 AI 개요
• 요구 AI 기능과 연결점 소개
• Virtual Try On 분야 기술 소개

02. 가상시착 GPTs 간단제작

• 가상시착 GPTs 한계점 소개
• 가상시착 GPTs 간단제작 구현

03. Virtual Try On 기반기술 체험

• Virtual Try On 분야 기술 소개 2
• Virtual Try ON 기반 기술 체험

04. Virtual Try On Flow 구현

• UI framework 소개
• ComfyUI 환경설정
• ComfyUI Flow를 통한 가상시착 구현

05. 심화! 3D 가상시착

• Image-to-3D 기술 소개
• Image-to-3D 기술 적용
• 3D 기술 주목 필요성

06. 심화! 패션 피드백

• LMM의 활용도 소개
• LMM을 통한 패션 피드백 기능 구현

07. 추후 발전 방향 소개

• 추후 발전 방향 소개

부록 . AssistantAPI사용법

• Assitant API 필요성
• Assitant API 기초
• Assitant API 실전

Part 8. 산타토* st 토익스피킹 연습 서비스 만들기

01. 토익 AI 개요

• 언어 교육과 AI 개요
• 요구 AI 기능과 연결점 소개
• GPTs Store 소개

02. 산타 토익스피킹 GPTs 버전 제작

• GPTs Generator, Config 간단 소개
• 문자 채팅 기반 GPTs 제작
• 이미지 인식 GPTs 제작
• GPTs Knowledge, Browsing 과 RAG 개념 소개
• GPTs Knowledge 기반으로 RAG GPTs 제작
• GPTs Browsing 기반으로 유행대화 가능한 GPTs 제작
• Code Interpreter 기반으로 계산 대화 가능한 • • GPTs 제작
• GPTs Action 소개
• GPTs 에 action 넣어보기
• GPTs의 한계 및 로컬 구현의 장점

03. 로컬 LLM 개발 환경 세팅

• LLM 후보 모델과 특징 소개
• LLM 모델의 로컬 기능 구현을 도와줄 프레임워크들 소개
• ollama로 로컬에서 LLM 돌려보기

04. 로컬 ChatUI 구성

• ChatUI 구성 프레임워크 소개 및 비교
• StreamLit (or ChainLit) 환경설정 및 기본
• StreamLit (or ChainLit)으로 ChatUI 기본 데모 구성

05. 기본 Chat Agent의 구성

• Agent 구성 프레임워크 소개 예시 소개
• langchain 환경 세팅
• langchain을 통한 기본 agent 구현

06. 프롬프트의 체계적 구성과 시각화

• prompt의 체계적 구성 필요성
• promptflow 환경 설정
• prompt 고도화

07. 고급 프롬프트 엔지니어링 (100가지 프롬포트 예제)

• 답변 정확도 향상시키기
• 답변 신뢰도 향상시키기
• 정보시각화
• 기타응용프롬포트

08. 음성 기능 추가

• 음성 인식 AI 기술 및 모델 소개
• TTS & STT 간단 적용
• TTS & STT 의 발음평가 적용

09. 이미지 인식 추가

• 이미지 인식 기술 소개
• 이미지 인식 기술 체험 및 비교
• 이미지 인식 구현

10. Visual Reffering Prompt

• visual reffering prompt 개념 소개
• visual reffering interaction 구현
• visual reffering prompt 구현

11. 추후 발전 방향 소개

• 추후 발전 방향 소개

부록 . 수익화 가이드

• GPTs와 수익화
• 수익화 유형별 전략
• 케이스 스터디

Part 9. 여기어* st CS 챗봇 만들기

01. 챗봇개요

• 챗봇이란
• 챗봇의 유형
• TOD 챗봇의 세부유형
• TOD 챗봇의 현재 및 발전방향

02. 실습 Overview

• 실습 개요
• 실습 개발환경
• Google Colab 실습환경 구성
• ChromaDB로 알아보는 Embeddings과 Vector DB

03. 챗봇을 위한 OpenAI API

• 챗봇을 위한 OpenAI API
• 챗봇을 위한 OpenAI API 실습

04. 고객지원(CS) 챗봇

• 고객지원(CS) 챗봇
• 고객지원 챗봇 시스템 구성요소
• NLU 실습 (1) - 의도분류
• NLU 실습 (2) - 엔티티추출, 슬롯필링
• 대화관리 DM
• 대화관리 실습
• 자연어 생성
• NLG 실습
• 고객지원 챗봇 구현 접근방법 비교

05. 패스트투어 챗봇 기능 구현

• 패스트투어 챗봇 구현 프로세스
• Fulfillment 준비
• NLU - 의도분류기 구현
• NLG - Agent 구현

06. 패스트투어 챗봇 만들기

• 패스트투어 챗봇 만들기
• 시나리오 테스트

07. 실무 개발에서 고려해야 할 사항

• 실무 개발에서 고려해야 할 사항

상세 커리큘럼 다운받기

학습규정 * 본 상품은 동영상 형태의 강의를 수강하는 상품입니다.
* 상황에 따라 사전 공지 없이 할인이 조기 마감되거나 연장될 수 있습니다.
* 강의 공개 일정은 내부 사정에 따라 변경될 수 있습니다.
* 선수 지식 부록 (Bonus) 파트의 경우 [딥러닝·인공지능 Signature 초격차 패키지 Online.] 강의의 Part 1 - Chapter 3와 동일한 영상입니다.

총 학습기간 :
– 정상 수강기간(유료 수강기간) 최초 3개월(90일), 무료 수강 기간은 91일차 이후로 무제한이며, 유료 수강기간과 무료 수강기간 모두 동일하게 시청 가능합니다.
– 본 패키지는 약 77시간 분량으로, 일 1시간 내외의 학습 시간을 통해 정상 수강 기간(=유료 수강 기간) 내에 모두 수강이 가능합니다.
– 수강시작일: 수강 시작일은 결제일로부터 기간이 산정되며, 결제를 완료하시면 마이페이지를 통해 바로 수강이 가능합니다. (사전 예약 강의는 1차 강의 오픈일)
– 패스트캠퍼스의 사정으로 수강시작이 늦어진 경우에는 해당 일정 만큼 수강 시작일이 연기됩니다.

주의사항 * 해당 강의의 Part 1-3에서 사용되는 ChatGPT API인 '플레이그라운드'가 유료로 전환됨으로써, 강의를 진행하는 동안 10만원 이내의 과금이 발생합니다.
* 상황에 따라 사전 공지 없이 할인이 조기 마감되거나 연장될 수 있습니다.
* 해당 강의는 사전 예약 판매 상품으로, 강의 영상이 순차적으로 업데이트될 예정입니다. 
* 해당 강의의 세부 커리큘럼은 촬영 및 편집을 거치며 일부 변경될 수 있으나, 전반적인 강의 내용에는 변동이 없습니다.
* Window/Mac 운영체제에서 수강하실 수 있습니다.

환불규정 – 환불금액은 정가가 아닌 실제 결제금액을 기준으로 계산됩니다.
– 쿠폰을 사용하여 강의를 결제하신 후 취소/환불 시 쿠폰은 복구되지 않습니다.

– 수강시작 후 7일 이내, 5강 미만 수강 시에는 100% 환불 가능합니다.
– 수강시작 후 7일 이내, 5강 이상 수강 시 전체 강의에서 수강한 강의의 비율에 해당하는 수강료를 차감 후 환불 가능합니다.

– 수강시작 후 7일 초과 시 정상 수강기간 대비 잔여일에 대해 아래 환불규정에 따라 환불 가능합니다.
환불요청일 시 기준
: 수강시작 후 1/3 경과 전, 실 결제금액의 2/3에 해당하는 금액 환불
: 수강시작 후 1/2 경과 전, 실 결제금액의 1/2에 해당하는 금액 환불
: 수강시작 후 1/2 경과 후, 환불 금액 없음

* 보다 자세한 환불 규정은 홈페이지 취소/환불 정책에서 확인 가능합니다.

패스트캠퍼스 아이디 공유 금지 정책 안내 [패스트캠퍼스 아이디 공유 금지 정책]
패스트캠퍼스의 모든 온라인 강의에서는 1개의 아이디로 여러명이 공유하는 형태를 금지하고 있습니다.
동시접속에 대한 기록은 내부 시스템을 통해 자동으로 누적되며, 이후 서비스 이용이 제한될 수 있습니다.

[기기제한 정책]
패스트캠퍼스 온라인 강의 시청을 위해서는 ID별 최대 3개의 기기를 등록할 수 있으며, 기기 등록은 온라인 강의장 접속 시 자동 등록됩니다.
최대 갯수를 초과하였을 경우 등록된 기기 해제가 필요합니다.

[저작권 정책]
패스트캠퍼스의 모든 강의는 무단 배포 및 가공하는 행위, 캡쳐 및 녹화하여 공유하는 행위, 무단으로 판매하는 행위 등 일체의 저작권 침해 행위를 금지합니다.
부정 사용이 적발될 경우 저작권법 위반에 의한 법적인 제재를 받으실 수 있습니다.

root layout