딥러닝

모델 기반 강화학습
코스 프로모션 배너 전용입니다.
0 0시간 0 0 코스 프로모션 배너 전용입니다.

강화학습 바이블의 기준을 새로 쓰다!

모델 기반 강화학습에 필요한 모든 내용을 이 강의 하나로 끝내세요!

강화학습, 아직 상용화 되기는 먼 이야기라고 생각하시나요?

모델 기반 강화학습

T사의 자율주행 자동차부터 금융업, 교육업, 이커머스에 이르기까지
이미 우리의 생활에 깊숙이 들어오기 시작한 강화학습,

더 늦기 전에 지금! 강화학습 지금 시작하세요!

강화학습을 배우는 수강생들은 어떤 것을 어려워 했을까요?

이론 수업을 들었지만 수학에 대한 이해가 부족해서 무슨 말인지 잘 모르겠어요

알고리즘을 외워서 사용할 뿐.. 새로운 상황에 적용할 알고리즘을 스스로 고를 수 없어요.

알고리즘 성능 개선을 할 수 없어요.

출처 : 2019년 12월 패스트캠퍼스 오프라인 강화학습 수강생 대상 설문

모델 기반 강화학습

이 모든 문제의 원인은
한 가지!

알고리즘을 원리부터 이해하지 못했기 때문입니다!

데이터사이언스 직장인 강의 명가 패스트캠퍼스의 강의는 다릅니다!

강화학습 알고리즘을 계통별로 원리부터 확실하게 이해하고,
성능개선 실습으로 각 알고리즘의 특징을 완벽하게 파악하세요!

Check Point 1.
원리부터 이해하는 강화학습 알고리즘 이론 수업!

원리를 파악하기 위해 필수적인
수식 학습으로 알고리즘 원리 파악
위한 기초를 만들어 드립니다.
강화학습 바이블 서적에서 다루는
주요 알고리즘을 모두 학습하며
강화학습의 기본을 다집니다.
최신 발표된 논문 중 검증된
알고리즘 논문을 리뷰합니다.
최신 알고리즘 학습 은 물론,
앞으로 혼자서도 논문을 보고 이해할 수
있도록 학습의 토대를 마련
해줍니다.

깊이 이해한 알고리즘이 많을 수록 나의 문제에 적합한 알고리즘을 선택할 수 있는 폭이 넓어집니다.

타사 비교 불가! 주요 알고리즘을 전부 담은 패캠의 커리큘럼을 직접 확인해보세요!

모델 기반 강화학습

Check Point 2.
원리까지 확실하게 익히는 알고리즘 성능 개선 실습!!

단순한 알고리즘 구현 실습만으로는 알고리즘을 외워서 쓰는 단계에서 벗어날 수 없습니다.

알고리즘의 성능 개선 실습을 통해 각 알고리즘의 원리부터 특성까지 꼼꼼하게 모두 학습하세요!

모델 기반 강화학습

패스트캠퍼스의 알고리즘 실습은
이론을 토대로 간단한 모델에서 시작하여 점차적으로 성능을 개선시켜가는 방법으로 알고리즘의 구성과 원리 이해에 최적화되어 설계되었습니다.
코드 빈칸을 직접 채우며 알고리즘의 특성과 성능을 직접 비교하고 체험해보세요!

Check Point 3.
전 과정 알고리즘 실습 진행!

한 두개 대표 알고리즘만 실습하고 끝나는 그런 수업?! NO!

이론으로 학습한 중요 알고리즘 모-두 위의 과정으로 꼼꼼히 실습합니다!

실습 커리큘럼

1. Dynamic Programming (DP) - Bellman equation의 해법 중 하나인 Iterative method for solving Bellman equations
: Grid world에서 BEE, BOE를 PE, PI, VI를 활용해 해를 구하고 그 과정 및 결과를 확인

2. Model-free value estimation 1 - Monte Carlo 기법
: Approximated DP (ADP) 기법 중 하나인 몬테카를로 기법을 설명하고 Grid world에서 MC를 구현 및 결과 설명

3. Model-free value estimation 1 - Temporal difference 기법
: Approximated DP (ADP) 기법 중 하나인 Temporal difference (TD) 기법을 설명하고 Grid world에서 TD를 구현 및 결과 설명

4. SARSA, Q-learning on grid world
: Grid world에서 SARSA, Q-learning을 구현

5. Value-based methods with function approximation 1
: 지도학습 및 추계적 경사하강 기법을 활용한 모델 학습 기법 실습

6. Value-based methods with function approximation 2
: 심층신경망을 function approximator로 활용한 기초적인 Deep Q-Learning을 소개 및 구현

7. Policy gradient 실습

8. Modern RL 1 - Deep Q-network (DQN)
: Maximization bias on Q-learning, Temporal correlation and Experience replay DQN 구현

9. Modern RL 2 - Deep deterministic PG (DDPG)
: Deterministic Policy gradient DDPG 구현

10. Model-based RL 실습
: 모델 기반 강화학습과 모델 프리 강화학습을 구현하여 각각의 장단점에 대해 비교

모델 기반 강화학습

각 실습 예제들은 앞에서 배운 알고리즘을 자연스럽게 다시 활용할 수 있도록 구성되어있습니다.
반복적으로 알고리즘을 사용하면서 알고리즘 간의 특성 비교는 물론 내 머리 속에서 잊혀질 틈을 주지 않습니다!

Check Point 4.
빈 칸에 코드를 채워넣으며 실습 진행!

모델 기반 강화학습

강의를 보며 함께 실습 할 수 있도록 빈칸이 들어간 코드를 제공합니다.
빈칸의 Parameter를 직접 바꿔보며 성능이 어떻게 개선/저하 되는지 파악해 보세요!


Check Point 5.
심층 강화학습을 포함한 최신 논문 리뷰

모델 기반 강화학습

현재 각종 연구 및 기업에서 가장 활발하게 사용되고 있는 심층강화학습 분야도 놓치지 마세요!

모델 기반 강화학습 기법을 심층 신경망을 결합해 혁신적으로 발전시켰다고 평가되는
심층 강화학습 논문들과 함께 최신 알고리즘에 대해서도 학습합니다.

코스 프로모션 배너 전용입니다.
0 0시간 0 0 코스 프로모션 배너 전용입니다.
(자동) (자동) (자동)
정가 (자동)
현재 판매가 (자동)
12개월 무이자 할부 시 (자동)
수강대상

DeepRL을 사용해보았지만, RL의 전체적인 그림을 이해하고 싶은 분

인공지능 기술을 현업에 적용시키기 위한 연구를 진행 중인 개발자

강화학습의 원리를 깊게 이해하고 싶은 개발자

수강 선수 지식
모델 기반 강화학습 커리큘럼

수업 목표

1. 강화학습이 수학적으로 정의되는 과정을 이해할 수 있다.
2. 강화학습의 알고리즘들을 원리부터 이해할 수 있다.
3. 강화학습의 풀이 기법을 이해하고 해법을 통하여 해를 구할 수 있다.
4. 논문을 통하여 딥러닝과 RL을 결합한 딥RL을 이해하고 Model based RL과 model free RL을 구현하고 이들의 장단점을 이해할 수 있다.
5. 실제 문제해결을 위해 문제를 정의하고 자신만의 알고리즘을 트레이닝 시킬 수 있다.

* 본 강의는 파이썬(Python 3.7)과 아나콘다(Anaconda)를 활용하여 실습을 진행하고 있습니다. 원활한 수강을 위해 참고 부탁드립니다.

Part 1.
강화학습 소개
- '강화'학습이 무엇인가요? 어디에 쓸수 있죠?
- 강.대.넓.얕 : 강화학습 대화를 위한 넓고 얕은 수식
- 강화학습 구현을 위한 환경설정
Part 2.
가치기반 강화학습의 풀이기법
- 마르코프 결정과정 소개
- MDP 실습 : Gridworld 로 알아보는 MDP
- 강화학습의 근간 : 동적계획법
- 더 효율적인 DP : 비동기적 동적계획법
- 동적 계획법 실습
- 도박의 도시 몬테카를로(MC) 그리고 MC 정책추정
- Temporal Difference(TD) 정책추정
- 정책 추정 실습
- MC Control : MC기법을 활용한 최적 정책 찾기
- SARSA : TD기법을 활용한 최적 정책 찾기
- 정책 찾기 실습
- Off-policy TD control 과 Q-Learning
- SARSA와 Q-Learning 비교하기
Part 3.
함수 근사기법
- 함수 근사 소개 : 함수 근사? 어떻게 RL에?
- 선형회귀 모델
- numpy로 선형회귀 모델 만들기
- 심층 신경망을 활용한 함수근사 : 선형 근사, 저 너머로!
- Pytorch로 선형회귀 모델 만들기
- Pytorch로 MLP 구현하기
- Naïve Deep Q-Learning
- 합성곱 신경망 기초
Part 4.
정책 경사기법
- 정책 경사 소개 : 정책경사? 정책경사!
- 정책경사 실습
- Actor-critic : 가치기반 강화학습과 정책 경사의 만남
- Actor-critic 실습
- 정책 경사? Trajectory 최적화!
Part 5.
심층 강화학습 논문 읽기
- Deep Q-network (DQN)
- Deep Deterministic Policy Gradient (DDPG)
- 심층강화학습 구현에 대한 현실적인 팁!
- DDQN / TD3, A3C, GAE
- PPO, SAC, PER / HER
- 강화학습 리뷰
Part 6.
모델 기반 강화학습
- 강화학습에 환경 모델을 활용해보자
- Dyna 모델을 활용해 가치함수를 효율적으로 학습하기
- PILCO 모델을 활용해 정책함수를 효율적으로 학습하기
- 모델 기반 강화학습 실습
- 현대 강화학습 소개
- 강좌 마무리

🔍 이 많은 논문, 꼼꼼하게 전부 봐드립니다

Part5. 심층 강화학습

- dqn1: player atari with deep reinforcement learning
- dqn2: Human-level control through deep reinforcement learning
- ddpg: Continuous control with deep reinforcement learning
- dpg: deterministic policy gradient algorithm
- double q learning: double q-learning
- deep double q-learning: Deep Reinforcement Learning with Double Q-learning
- RAINBOW: Rainbow: Combining Improvements in Deep Reinforcement Learning
- Dueling network:Dueling Network Architectures for Deep Reinforcement Learning
- td3: addressing function approximation error in actor-critic methods
- a3c: Asynchronous Methods for Deep Reinforcement Learning
- ppo: Proximal Policy Optimization Algorithms
- sac1: Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor
- sac2: Soft Actor-Critic Algorithms and Applications

Part6. 모델 기반 강화학습

- Dyna
- DiffTaichi
- Probabilistic inference and learning control
- Guided Policy Search
- Graph networks as learnable physics engines for inference and control
- Input convex Neural Network
- Optimal control via neural network: a convex approach
- Imagination-Augmented Agents for Deep Reinforcement Learning
- SOLAR: Deep Structured Representations for Model-Based Reinforcement Learning
- Embed to control: A locally linear latent Dynamic models for control from raw images
- Learning Compositional Koopman Operators for Model-Based Control
- Learning Latent Dynamics for Planning from Pixels
- Dream to Control: Learning Behaviors by Latent Imagination

강의 맛보기
CH05. 어깨넘어 배워서 세상 조정하기 - 04. SARSA와 Q-Learning 비교하기
Ch 01.마르코프 결정과정 - 02 강화학습의 놀이터 MDP
강사 소개
박준영 강사님
現 카이스트 산업 및 시스템 공학과 박사 과정
前 카이스트 산업 및 시스템 공학과 학사/석사
前 PARC, a Xerox company 연구소 근무
강화학습 / 딥러닝 논문 저술
제 강의의 목적은 ‘강화학습 초심자’가 강화학습의 이론 및 구현을 이해하는데 있습니다.
관련된 이론 지식과 알고리즘은 물론 실제 업무에서 활용할 때 부딪힐 수 있는 문제점과 해결법등을 골고루 강의에 담았습니다.
기존에 제어관련 연구를 하셨던 연구자 분들께서 혹은 그런 분야를 공부하려는 대학(원)생들이 새롭게 강화학습을 시작하는데 도움이 될 것이라고 생각합니다.

입문자부터 실무자까지.
강화학습 전문가인 강사님이 필수 수학 이론부터 실무에서 필요한 노하우까지 꼼꼼하게 전달해드립니다..

프로젝트로 배우는 실무 노하우.
책에 갇힌 이론으로 끝나지 않고 수업에서 학습한 이론이 프로젝트의 큰 그림 속에서 어떻게 활용될 수 있는지 직접 확인해보세요!

원하는 곳 어디서나.
시간을 쪼개 먼 거리를 오가며 강의장을 찾을 필요 없이 원하는 장소에서 원하는 시간에 공부해요!.

무제한으로 반복 학습.
이해가 잘 되지 않는 내용도 몇 번이고 반복 재생하여 완전히 알 때까지 학습할 수 있습니다.

코스 프로모션 배너 전용입니다.
0 0시간 0 0 코스 프로모션 배너 전용입니다.
(자동) (자동) (자동)
정가 (자동)
현재 판매가 (자동)
12개월 무이자 할부 시 (자동)
같이 들으면 더 좋은 강의를 추천해드릴게요!

[이벤트 주의사항 및 환불규정 ]

이벤트 주의사항 및 환불규정 바로가기 ☞

[ 주의사항 및 환불규정 ]
* 상황에 따라 사전 공지 없이 할인이 조기 마감되거나 연장될 수 있습니다.
* 수강 신청 및 결제를 완료하시면, 마이페이지를 통해 바로 수강이 가능합니다.


– 총 학습기간
정상 수강기간(유료 수강기간) 최초 1개월(30일), 무료수강기간은 31일차 이후로 무제한이며, 수강기간과 무료수강기간 모두 동일하게 시청 가능합니다.
본 패키지는 약 28시간 분량으로, 일 1시간 내외의 학습 시간을 통해 정상수강기간(=유료수강기간) 내에 모두 수강이 가능합니다.
– 수강시작일 : 수강 시작일은 결제일로부터 기간이 산정됩니다. (사전 예약 강의의 경우 1차 강의 오픈일)
패스트캠퍼스의 사정으로 수강시작이 늦어진 경우에는해당 일정 만큼 수강 시작일이 연기됩니다.

* 천재지변, 폐업 등 서비스 중단이 불가피한 상황에는 서비스가 종료될 수 있습니다.
– 본 상품은 기수강생 할인, VIP CLUB 제도 (구 프리미엄 멤버십), 기타 할인이벤트 적용 불가 합니다.
– 콘텐츠는 향후 당사의 일정에 따라 추가 또는 업데이트 될 수 있습니다.
– 쿠폰 적용이나 프로모션 등으로 인해 5만원 이하의 금액으로 강의를 결제할 경우, 할부가 적용되지 않습니다.

– 환불금액은 정가가 아닌 실제 결제금액을 기준으로 계산됩니다.
– 수강시작 후 7일 미만, 5강 미만 수강 시에는 100% 환불 가능합니다.
– 수강시작 후 7일 이상, 5강 이상 수강 시 수강기간인 1개월 (30일) 대비 잔여일에 대해 다음과 같이 환불 가능합니다.
: 환불요청일시 기준 수강시작 후 7일 초과, 10일 이하 경과 시, 실 결제금액의 2/3에 해당하는 금액을 환불
: 환불요청일시 기준 수강시작 후 11일 초과, 15일 이하 경과 시, 실 결제금액의 1/2에 해당하는 금액을 환불
: 환불요청일시 기준 수강시작 후 15일 초과 시, 환불금액 없음


패스트캠퍼스 아이디 공유 금지 정책 안내
아이디 공유란?
1개의 아이디로 여러명이 공유하여 수강하는 형태를 말합니다. 패스트캠퍼스의 모든 온라인 강의에서는 아이디 공유를 금지하고 있습니다.
동시접속에 대한 기록이 내부 시스템을 통해 자동으로 누적되며, 동시 접속 기록이 10회 이상 확인되는 경우 사전 안내없이 아이디가 차단될 수 있습니다.

수강료.

  • 모델 성능 개선으로 익히는 강화학습 A-Z 올인원 패키지 Online.

    현재 정가 대비 20% 할인 중!
    3월 31일 금요일 자정 까지

    정가 329,000원
    현재 판매가 263,000원

    12개월 무이자 할부 시 월 21,916원

국내 8개 카드사 12개월 무이자 할부 지원! (간편 결제 제외)

  • 삼성카드
  • 신한카드
  • 롯데카드
  • 현대카드
  • 하나카드
  • BC카드
  • KB국민은행
  • NH농협카드

※ BC카드의 경우, 비씨(페이북)을 선택하여 결제시에만 12개월 무이자 할부가 가능합니다.
(BC계열 – 우리/제일/기업/대구/경남/부산/광주/수협/전북/제주/신협)