멀티모달 강의

멀티모달
코스 프로모션 배너 전용입니다.
0 0시간 0 0 코스 프로모션 배너 전용입니다.

런칭 기념 할인가로 만나보세요.

2월 28일까지 20% 할인 진행!
  • COUPON

    (자동 구성)
    (자동 구성)
(자동)
정가 (자동)
현재 판매가 (자동)
12개월 무이자 할부 시 (자동)

안녕하세요. 아마존 본사에서 시니어 머신러닝 사이언티스트로 일하는 로페즈박사입니다.

우리가 딥러닝을 구현할 때 대부분 하나의 모달에서 하고 있습니다. 텍스트면 텍스트, 이미지면 이미지, 하나에 국한되죠.
하지만 여러분이 DALL-E 등에서 보다시피, 딥러닝은 멀티모달의 시대에 이미 접어들었습니다.
여러분이 DALL-E 등을 통해 멀티모달 시대를 맛보는 것도 좋지만, 이것을 실제로 코드로 만들고 이를 훈련시키는 것은 전혀 다른 이야기입니다.

이 수업은 여러분이 딥 멀티모달 러닝을 실습해보는 입문 수업입니다. 입문 수업이라는 꼬리표가 붙은 이유는 이 수업이 쉬워서 가 아니라
실제로 멀티모달을 노트북 환경에서 하는 것이 불가능하여 바이모달 위주로 실습을 하고 3개의 멀티모달은 하나 정도만 해야 하는 한계가 있기 때문입니다.
수업의 코드를 실제로 노트북에서 구현 가능하도록 노력할 것이나 GPU 환경에서 이를 실습해 볼 수 있는 분들에게 이 수업을 권합니다.
하지만 모달이 2개이든 3개이든 기본적인 개념은 같으므로 이를 통하여 차츰 넓혀 나갈 수 있는 계기가 되기를 바랍니다.

by Dr. 하비에르 알로조 로페즈

멀티모달 시대를 앞두고 이를 실제로 코드로 구현하고
훈련해보는 것을 원하는 예비 머신러닝 전문가들을 위한 강좌입니다

각 모달마다의 표현부터
멀티모달의 주요과제인 Alignment와
Fusion위주로 학습합니다

아마존 본사의 시니어
머신러닝 사이언티스트가 자신의 노하우를
여러분께 전달해 드립니다

유니모달, 바이모달, 3가지 모달의
멀티모달을 12개의 과제로 실습하며
이를 어떻게 학습시키는지 알아봅니다

Multimodal Learning

내 이야기라 생각된다면 지금 바로 수강 신청하세요

경쟁력있는 딥러닝 사이언티스트가 되고 싶으신 분

이름만 들은 멀티모달을 실제로 처음부터 하나하나 구현하고 싶으신 분

박사과정에서 멀티모달을 구현해야 하는데 미리 수업을 듣고 싶으신 분

딥러닝의 기본은 배웠으나 이제 더 빨리 미래를 선점하고 싶은 미래 전문가분들

DALL-E로 결과물 보는 것은 멋있을 수 있지만, 그것이 당신의 능력을 향상시키지는 않지요.
이를 실제로 코드로 구현해 볼 수 있는 능력이 있어야 당신은 멀티모달 딥러닝 사이언티스트가 될 수 있습니다.

텍스트, 이미지, 오디오가 행렬로 벡터로 어떻게 표현되는지를 살펴서 유니모달의 세계를 제대로 이해해 봅니다

텍스트-이미지, 이미지-오디오, 오디오-텍스트의 바이모달을 실습해보고 이들을 어떻게 Align시켜 훈련시키는지를 살핍니다

텍스트-이미지-오디오 3개의 멀티모달을 Align시켜 훈련시키는지를 코드를 통해 풀어봅니다

텍스트-이미지-오디오 3개의 멀티모달을 Align시켜 훈련시키는지를 코드를 통해 풀어봅니다

멀티모달과 가장 연관된 Self-Supervised Learning을 살펴보고 자기지도학습의 기본을 맛봅니다

멀티모달과 가장 연관된 Self-Supervised Learning을 살펴보고 자기지도학습의 기본을 맛봅니다

Open AI의 DALL·E 2가 2022년 4월에 등장하며 센세이션을 일으켰고 그 외에도
구글리서치 브레인팀의 Imagen과 Parti, NVIDIA에서 만든 GauGAN2, 그리고 Midjourney
그리고 국내 카카오브레인의 민달리까지 이제 딥멀티모달러닝의 시대가 도래했습니다.
이것들을 보고 그림도 만들 수 있지만, 딥멀티모달러닝을 코드로 구현해 볼 수 있으신가요?

글로벌 기업들이 미래 먹거리로 선점하려는 기술, 이제 패스트캠퍼스에서 배우세요.

우리가 학습을 위해 텍스트 따로, 이미지 따로, 오디오 따로 딥러닝을 해왔지만
실제 세상은 멀티모달입니다. 궁극적으로 모든 딥러닝은 멀티모달로 갈 것입니다.

다음 이론들을 완료하면
딥멀티모달러닝의 핵심 내용을 확실히 이해하게 됩니다.

Deep Multimodal Learning

이론을 완벽히 이해했다면
실습을 통해 현장에 나가기 위한 워밍업을 합니다.

1. 이미지 데이터의 행렬 표현
2. 텍스트 데이터의 행렬 표현
3. 오디오 데이터의 행렬 표현
4. 텍스트와 이미지를 이용한 다중 표현 학습
5. 귀 및 프로필 얼굴 이미지를 사용한 다중 모드 연령 및 성별 분류
6. 바이모달 트랜스포머를 사용한 고밀도 비디오 자막
7. 연속 비디오 스트림에서 공동 이벤트 감지 및 설명
8. PyTorch audiomentations로 오디오 데이터 증대
9. LEAF: 학습 가능한 오디오 프론트엔드
10. CLIP을 이미지, 텍스트 및 오디오로 확장
11. 이미지 분류의 자기 지도 학습
12. 교차 방식 오디오-비디오 클러스터링에 의한 자기 지도 학습

멀티모달 강의

멀티모달로 하는 딥러닝은 혼자 공부하기 쉽지 않지만, 2-3년 내로 딥러닝을 공부하는 사람이라면
누구나 당연히 받아들여야 하는 트렌드일 것입니다. 선택의 문제가 아니라 시기의 문제일 뿐입니다.

이 수업은 멀티모달 딥러닝의 입문 수업이나 딥러닝을 이론적이나 수학적으로 어느 정도
이해하시는 분들이 코드로 구현하는 것을 같이 익히기 위해서 배우는 수업입니다.
저와 같이 유니모달, 바이모달 그리고 3개의 모달로 하는 멀티모달까지 차근차근 해보겠습니다.


[이력]

Javier Alonso Lopez, Ph.D.

• 2016 ~ 현재
아마존 본사 시니어 머신러닝 사이언티스트

• 2014 ~ 2016
스페인 레옹대학 리서치 매니저

• 2015 ~ 2015
듀크대학 방문교수

• 2011 ~ 2014
듀크대학 포닥 연구원
[학력]

2011 Universitat Politècnica de Catalunya
컴퓨터 공학 박사
커리큘럼
Part 1: Introduction
1. 과정의 목표
2. 과정의 구조
3. Multimodal 딥 러닝의 5가지 핵심 과제:
• Representation learning
• Translation
• Alignment
• Fusion
• Co-learning
Part 2: Representation Learning
1. Python 프레임워크에서 다양한 형식의 데이터 읽기/쓰기
2. 이미지 분류 문제 설명 설정
3. 실습 - 이미지 [실습 1] 이미지데이터의 행렬 표현
4. 텍스트 분류의 문제 서술 설정
5. 실습 - 텍스트 [실습 2] 텍스트 데이터의 행렬 표현
6. 신호처리의 기초와 음성분류의 문제 설정
7. 연습 - 오디오 [실습 3] 오디오 데이터의 행렬 표현
Part 3: Bi-modal 1: Image
1. 이미지-텍스트 바이모달 모델의 기초
2. [실습 4] 텍스트와 이미지를 이용한 다중 표현 학습
3. [실습 5] 귀 및 프로필 얼굴 이미지를 사용한 다중 모드 연령 및 성별 분류
Part 4: Bi-modal 2: Image(Video) - Audio
1. 비디오-오디오 바이모달 모델의 기초
2. [실습 6] 바이모달 트랜스포머를 사용한 고밀도 비디오 자막
3. [실습 7] 연속 비디오 스트림에서 공동 이벤트 감지 및 설명
Part 5: Bi-modal 2: Audio-Text
1. 오디오-텍스트 바이모달 모델의 기초
2. [실습 8] PyTorch에서 audiomentations로 오디오 데이터 증대
3. [실습 9] LEAF: 학습 가능한 오디오 프론트엔드
Part 6: Multimodal of Image, text and Audio
1. 멀티 모달(3+ 모달리티) 모델의 기본 사항
2. [실습 10] CLIP을 이미지, 텍스트 및 오디오로 확장
Part 7: Self-Supervised Learning
1. 자기 지도 학습의 기초
2. [실습 11] 이미지 분류의 자기 지도 학습
3. [실습 12] 교차 방식 오디오-비디오 클러스터링에 의한 자기 지도 학습
잠깐!
학습을 위한
사전 지식

우선 이 수업은 멀티모달 입문이나 딥러닝 중급이란 것을 말씀드립니다.
이 과정에 제시된 자료를 최대 이해하려면 딥 러닝을 확실하게 이해하는 것이 좋습니다.

• 이미 FNN (기본적인 신경망) 작동 방식, 교육 방법 및 결과를 추론하는 데 사용되는 방법을 이해
• NN 역전파 알고리즘의 작동 방식을 알고있을 것
• 필수는 아니지만 기본 알제브라와 미적분학을 잘 이해하는 것이 바람직합니다
• CNN, RNN 등과 같은 다른 유형의 신경망에 익숙

사용할 리소스
파이토치
멀티모달 모델은 컴퓨팅 리소스 강도로 잘 알려져 있습니다.
수업은 구글 콜랩에서 코드와 결과를 보여줄 것이나 실제로 초기 실습을 제외하고는 구글 콜랩에서 구현 하기는 힘들고 GPU 2개 이상을 가진 컴퓨터를 사용하여야 주어진 코드를 구현하실 수 있을 것입니다.

* 일부 실습은 GPU 환경이 필수이므로, 이런 환경을 활용 가능하신 분만 수강하세요.
아마존 본사 머신러닝 사이언티스트와
12개의 실습을 통해 배우는 Deep Multimodal Learning 입문코스, 지금 최저가로 만나보세요!
코스 프로모션 배너 전용입니다.
0 0시간 0 0 코스 프로모션 배너 전용입니다.
(자동)
정가 (자동)
현재 판매가 (자동)
12개월 무이자 할부 시 (자동)
멀티모달 기초

수강료.

국내 8개 카드사 12개월 무이자 할부 지원! (간편 결제 제외)

  • 삼성카드
  • 신한카드
  • 롯데카드
  • 현대카드
  • 하나카드
  • BC카드
  • KB국민은행
  • NH농협카드

※ BC카드의 경우, 비씨(페이북)을 선택하여 결제시에만 12개월 무이자 할부가 가능합니다.
(BC계열 – 우리/제일/기업/대구/경남/부산/광주/수협/전북/제주/신협)