스크래치부터 시작하는 강화학습의 모든 것

Online Course.
스크래치부터 시작하는
강화학습의 모든 것

모델 개선과 실무에서의 활용 연계성을
고려한 커리큘럼 구성!

강화학습 모델을 개선하면서 자주 발생하는
오류 및 디버깅 과정을 담아 문제를 해결
강화학습의 성능 확장 원리를
단계별로 이해할 수 있는 방법론

불안정하고 유동성이 큰 현업 환경에서
성능 개선에 도움을 주는 아이디어 학습
스크래치부터 단계별로
구현하는 강화학습

벤치마크 환경을 하나하나 뜯어 보면서
강화학습 구현을 위한 시물레이션 환경 구축

기본 정보

• 6개 대주제(약 53시간 분량)
• 기초 - 심화
• 선수지식 : 기초 확률 및 통계 지식(선형대수학 포함),
파이썬 멀티프로세싱, 딥러닝에 대한 이해, Linux 활용에 대한 이해
프레임워크에 대한 이해(Pytorch), Numpy 라이브러리에 대한 이해

강의 특징

• 수강료 1회 결제로 평생 소장
• 실무에서 강화학습 적용으로 성능 개선이 가능한 학습
• 강사님의 질의응답 제공

코스 프로모션 배너 전용입니다.

0일 0시간 0분 0초 코스 프로모션 배너 전용입니다.

(자동)

정가 ~~(자동)~~

할인 금액 (자동)

현재 판매가 (자동)

(자동)

* 12개월 무이자 할부 시

바로 구매하기

최근 강화학습은 우리 주변에서
어떻게 활용되고 있을까요?

01. CHAT GPT

인공지능 기업 OPEN AI는 사람이 모델의 결과에 대해 평가한 피드백을 반영하고 loss를 설계한 RLHF 훈련을 통해 사용자의 지시를 따르고 만족스러운 반응을 생성하는 AI 모델을 만들었습니다.
02. 게임

NC Soft의 ‘리니지’ 는 MMORPG 게임 특성 상 반복되는 패턴의 사냥이 플레이어들에게 있어 피로감을 느끼기 쉬워, AI 강화학습 기술로 다양한 상황에 맞는 지능적인 전투를 선보였습니다.

03. 자율주행

기아 자동차는 세계 최초로 '전방 예측 변속 시스템'을 도입하여 내리막길, 과속 방지턱 등의 구간에서 더 안전하게 통과할 수 있게 되었습니다.
04. 금융·투자

신한 금융그룹은 국내 금융권 최초로 강화학습 인공지능 알고리즘이 적용된 ‘신한BNPP SHAI네오(NEO)자산배분 증권투자신탁’ 과 ’신한 NEO AI 펀드랩’을 출시하였습니다.

다양한 분야에서 활용되는 강화학습
그러나
실제 활용에서는
어떤 어려움들이 있을까요?

실무에서 강화학습 적용이 어려운 수강생들을 위해
패스트캠퍼스가 준비했습니다!

단계별 성능 개선 방법 부터
강화학습의 최신 기법까지 확실하게 알려드립니다.

실전 문제 해결력!

스크래치부터 구현하는 강화학습을 수강하면
갖출 수 있습니다!

강화학습은 알고리즘 성능만 좋다고 만능이 아닙니다.
실제로 성능에 영향을 끼치는 요소들을 학습하며
차근차근 개선해나갑니다.
META RL과 OFFLINE RL을 학습하여
한정된 환경 속 기존 강화학습 대비
더 좋은 결과를 낼 수 있는지 학습합니다.

해결하고자 하는 문제가 강화학습에서 다루는
‘환경’적으로 명확한 경우와 명확하지 않은 경우
모두 환경을 구성하여 문제를 해결할 수 있습니다.
현업의 문제에서 상태, 행동, 트렌지션을
어떻게 구성하고 시스템을 설계하여,
시뮬레이션 환경을 구축하는지 학습합니다.

강화학습을 완벽하게 끝내 줄
핵심 포인트 6가지!

Point 01
강화학습의 이해를 돕기 위한 기초 지식

지도학습, 비지도학습과 비교하며
강화학습만의 특징과 차이점을 학습합니다.

Step 1

강화학습이 어떤 형태의 학습 방법인지 알아보고 강화학습의 예시를 알아봅니다.
Step 2

지도학습, 비지도학습과 비교하며 강화학습만의 특징과 차이점을 학습합니다.
Step 3

강화학습에서 쓰이는 가장 기본적인 개념인 Agent, Environment, Action, State, Policy, Reward의 의미를 학습합니다.

Point 02
MDP의 이해 가치함수, 행동가치함수

강화학습에서 환경을 묘사하는 개념인 MDP를 학습하고
가치함수, 행동가치함수의 수식적 표현을 이해합니다.

Point 03
Planning by Danamic Programming

환경에 대한 MDP 모델과 Dynamic Programming을 이용하여
Agent를 강화하는 알고리즘을 학습합니다.

Point 04
Model Free Learning & TD Learning

환경에 대한 MDP 모델없이 Agent를 강화하는
알고리즘을 학습합니다.

Point 05
Deep Reinforcement Learning

강화학습의 대표적인 방법론 DQN, Actor-Critic을 공부합니다.
각 방법론에서 성능, 안정성, 효율이 더 향상된 알고리즘과 개선점을 학습합니다.

Deep Reinforcement Learning 파트 수강 후
수강생 여러분들은 이렇게 실무에 도움이 될 수 있습니다.

각 알고리즘 별 실습을 하게 되면서 알고리즘의 하이퍼파라미터 조정과 디버깅하는 방법을 학습하실 수 있습니다. 강화학습에서 알고리즘의 하이퍼파라미터 조정과 디버깅을 하는 가장 큰 이유는 더 우수한 성능 Agent를 학습시키기 위한 목적으로 진행되기 때문입니다. 또한 알고리즘과 별개로 강화학습을 실제로 적용하면서 더 높은 성능을 구현하기 위해 Reward, Discount Factor, Batch Size, Sequence Length, Model Structure 등의 요소들을 설정하는 방법을 학습합니다.

Point 06
Advanced Deep Reinforcement Learning

기존의 강화학습 알고리즘은 데이터 셋을 처음부터 스스로 수집하여야 하기 때문에 굉장히 비효율적입니다.
기존의 데이터 셋, 미리 학습한 사전 정보, 사람의 Feedback을 활용하여 데이터 효율을 증가시키고
나아가 실제 문제 해결에 한 걸음 더 가깝게 학습합니다.

Step 01
강화학습에 필요한 시뮬레이션 환경 구축

• 강화학습 알고리즘을 적용하기 위해 반드시 정의 되어야 하는 상태, 행동, 보상, 전이확률에 대한 개념을 복습합니다.

• 직접 구현해 본 시뮬레이터에 PPO 알고리즘을 구현합니다.

• 직접 구현해 본 시뮬레이터에 Actor-Critic 알고리즘을 구현합니다.

| 강의에서 사용하는 시뮬레이터 환경 - MuJoCo

Step 02
Offline RL

• Offline RL 중 Model을 학습하지 않는 Model Free 기법을 학습합니다.

• Offline Dataset을 어떻게 활용하는지 학습하여 강화학습의 데이터 효율을 증가시키는 원리를 이해합니다.

• Offline RL 중 Model을 학습하는 Model Based 기법을 학습합니다.

• Model Based와 Model Free 간의 차이를 이해하고 각각 구현합니다.

| 정교한 Task를 한 번에 수행하는 Policy로 학습하여 기존 강화학습 대비 복잡한 결과 수행이 가능한 Offline RL

Step 03
Meta RL

• Meta RL의 개념과 최신 Meta RL 논문 리뷰를 통해 실제 환경에서 Meta RL이 어떻게 적용되는지 학습합니다.

• 물리적인 현상을 빠르고 자연스럽게 구현할 수 있는 MuJoCo 환경을 활용하여 MAML, MAESN, PEARL, ST Protocol 기법을 학습합니다.

| 적은 업데이트만으로 빠르게 Task Adaptation이 가능한 META RL

Step 04
Preference Based RL

• 사람의 Feedback으로 보상함수를 학습하고 이를 통해 RL을 구현합니다.

• 비지도 사전학습, 랭킹 정보, 리워드 네트워크의 학습 방식을 구현합니다.

| 보상함수를 특정하기 어려운 Backflip 동작을 Human Feedback으로 학습한 Preference Based RL

Point 07
궁금한 내용은 언제든 디스코드 질의응답 채널에 질문하세요!

현직 강화학습 전문가들이 직접 답변 드립니다!

* 디스코드 질의응답 운영 기간은 2023년 4월 28일 ~ 2025년 04월 28일 입니다.

상세 커리큘럼.

자세한 커리큘럼 및 내용은 여기서 확인하세요!

자세히 보기 »

수업 실습 환경

별도의 개발 지식 없이
사용할 수 있는 구글 코랩을
활용하여 실습이 진행됩니다.
경로 이동, 파일 생성, 파이썬 커맨드
실행 등 기초 수준의 지식으로
Linux(Python 3.7) OS를 활용하여
실습이 진행됩니다.
강화학습 Mujoco 환경을 활용하여
실습이 진행됩니다.

강사소개

권태환 강사님

[이력]

현) 카카오브레인 AI 연구원
전) NC Soft 강화학습팀 연구원

프로젝트 및 연구 경력

• 리니지 거울전쟁 AI 개발 프로젝트 진행
• Starcraft2 환경에서 강화학습 기반 AI 연구 및 개발 진행
• NeurlPS 2022 IGLU Challenge 강화학습 부문 우승
• NeurlPS 2021 NetHack Challenge Neural Agent 부문 준우승

이경재 강사님

[이력]

현) 중앙대학교 RAI LAB 조교수 & 연구책임자

프로젝트 및 연구 경력

• Robot Learning for Object Manipulation with Uncertainty-Aware Autonomous Data Generation and Task Optimization (2021 ~ )
• [SW Star Lab] Robot Learning: Efficient, Safe, and Socially-Acceptable Machine Learning (2019 ~ 2020)
• Intelligent Agent System using Reinforcement Learning (2019 ~ 2020)
• Learning-Based Robotic Grasping (2019)
• Robot Learning from Demonstrations with Mixed Qualities (2017 ~ 2019)
• Human-Level Lifelong Machine Learning (2014 ~ 2017)
• Biomimetic Recognition Technology (2013 ~ 2018)
• Human-Centric Networked Robotics Technology (2013 ~ 2016)

커리큘럼

Part 1. Introduction to Reinforcement Learning

01. What is Reinforcement Learning?

• 강화학습이란 무엇인가?
• 강화학습의 특징
• 강화학습의 정형화
• 강화학습의 정형화

02. Features of RL and comparison with SL and USL

• 강화학습의 기본 개념
• 기본 개념을 통해 설명하는 강화학습의 과정

Part 2. MDP & Value Function & Action Value Function

01. Definition and Properties

• MP(Markov Process)란 무엇인가?
• Markov Reward Process(MRP)란 무엇인가?
• Markov Decision Process(MDP)란 무엇인가?

02. Value Function and Action Value Function

• Value Function(가치함수)와 Action Value Function(행동가치 함수)에 대한 Bellman Equation(벨만 방정식)
• 행렬(Matrix)화를 통한 가치함수와 행동가치함수의 벨만 방정식 풀기
• 최적가치함수와 최적행동가치함수에 대한 벨만 최적 방정식 풀기

Part 3. 환경에 대한 MDP 모델과 Dynamic Programming으로 Agent를 강화하는 알고리즘

01. Policy Evaluation

• Policy Evaluation이란 무엇인가?
• Policy Evaluation 구현 (실습)
• Contraction Mapping Theorem & Convergence of Policy Evaluation

02. Policy Improvement

• Policy Improvement란 무엇인가?

03. Policy Iteration

• Policy Iteration이란 무엇인가?
• Generalized Policy Iteration이란 무엇인가?
• Policy Iteration 구현 (실습)

04. Value Iteration

• Value Iteration이란 무엇인가?
• Value Iteration 구현 (실습)

Part 4. 환경에 대한 MDP 모델 없이 Agent를 강화하는 알고리즘

01. Monte-Carlo Method

• 큰 수의 법칙 (Law of Large Numbers)
• Monte-Carlo Prediction이란 무엇인가?
• Monte-Carlo Control이란 무엇인가?
• Monte-Carlo Method (실습)

02. TD Prediction

• TD의 정의
• TD를 이용한 가치함수 계산
• TD Prediction의 장점
• TD Prediction 예시
• Convergence of TD Prediction
• TD prediction 구현 (실습)

03. TD Control : SARSA(On-Policy) & Q-Learning (Off-Policy)

• SARSA
• Q-Learning
• Q-Learning에서 Q-Function의 수렴성
• SARSA (실습)
• Q-Learning (실습)

04. n-Step TD Prediction

• n-Step TD Prediction이란?
• n-Step TD (실습)

05. TD (Lambda)

• TD(Lambda)란 무엇인가?
• TD(Lambda) (실습)

Part 5 & 6. Deep Reinforcement Learning

01. Neural Networks for Function Approximation in RL

• Neural Network를 통해 RL에서 쓰이는 함수의 근사 및 표현

02. DQN

• DQN 파헤치기
• DQN (실습)

03. Advanced DQN Methods

• Prioritized Experience Replay
• Double DQN
• Dueling DQN
• Prioritized Experience Replay (실습)
• Double DQN (실습)
• Dueling DQN (실습)

04. Policy Gradients

• Policy Gradient 학습 방법
• Monte-Carlo Policy Gradient
• Actor-Critic
• Advantage & Generalized Advantage Estimation
• Monte-Carlo Policy Gradient (실습)
• Actor-Critic (실습)
• Advantage Actor-Critic (실습)
• Actor-Critic with GAE (실습)

05. Advanced Advantage Actor-Critic Methods: PPO

• PPO (Proximal Policy Optimization)란?

06. Off-Policy Actor Critic

• Off-Policy Actor-Critic이란 무엇인가?
• IMPALA
• ACER

07. Distributed RL System

• Actor-Model paired Distributed system
• Seed RL

Part 7. Advanced Deep Reinforcement Learning

01. 직접 해보는 시뮬레이션 환경 구축

• 상태, 행동, 보상, 전이확률 정의
• 밑바닥부터 PPO 구현
• 밑바닥부터 Actor-Critic 구현

02. Model Free Offline RL

• Conservative Q-Learning
• TD3+Behavior Cloning
• Offline RL with IQL
• Mildly Conservative Q-Learning

03. Model Based Offline RL

• Model-based Offline Policy Optimization
• Robust Adversarial Model-Based Offline Reinforcement Learning

04. Meta RL

• MAML
• MAESN
• PEARL
• DIAYN

05. Preference-Based RL

• RLHP
• PEBBLE
• Learning form Ranking
• MRN

코스 프로모션 배너 전용입니다.

0일 0시간 0분 0초 코스 프로모션 배너 전용입니다.

(자동)

정가 ~~(자동)~~

할인 금액 (자동)

현재 판매가 (자동)

(자동)

* 12개월 무이자 할부 시

바로 구매하기

이 강의도 추천해요.

학습규정 * 상황에 따라 사전 공지 없이 할인이 조기 마감되거나 연장될 수 있습니다.
* 수강 신청 및 결제를 완료하시면, 마이페이지를 통해 바로 수강이 가능합니다.
* 본 강의의 실습 환경은 Pytorch, Linux, Google Colab 환경에서 실습합니다.
* 본 강의에서는 Linux 기초 내용을 학습하지는 않습니다.
* Mac/Windows 운영체제 관계없이 수강하실 수 있습니다.

총 학습기간:
– 정상 수강기간(유료 수강기간) 최초 2개월(60일), 무료 수강 기간은 61일차 이후로 무제한이며, 유료 수강기간과 무료 수강기간 모두 동일하게 시청 가능합니다.
– 본 패키지는 약 53시간 분량으로, 일 1시간 내외의 학습 시간을 통해 정상 수강 기간(=유료 수강 기간) 내에 모두 수강이 가능합니다.
– 수강시작일: 수강 시작일은 결제일로부터 기간이 산정되며, 결제를 완료하시면 마이페이지를 통해 바로 수강이 가능합니다. (사전 예약 강의는 1차 강의 오픈일)
– 패스트캠퍼스의 사정으로 수강시작이 늦어진 경우에는 해당 일정 만큼 수강 시작일이 연기됩니다.
– 일부 강의는 아직 모든 영상이 공개되지 않았습니다. 각 상세페이지 하단에 공개 일정이 안내되어 있습니다.

주의사항 – 상황에 따라 사전 공지 없이 할인이 조기 마감되거나 연장될 수 있습니다.
– 천재지변, 폐업 등 서비스 중단이 불가피한 상황에는 서비스가 종료될 수 있습니다.
– 본 상품은 기수강생 할인, VIP CLUB 제도 (구 프리미엄 멤버십), 기타 할인 이벤트 적용이 불가할 수 있습니다.
– 커리큘럼은 제작 과정에서 일부 추가, 삭제 및 변경될 수 있습니다.
– 쿠폰 적용이나 프로모션 등으로 인해 5만원 이하의 금액으로 강의를 결제할 경우, 할부가 적용되지 않습니다.

환불규정 – 환불금액은 정가가 아닌 실제 결제금액을 기준으로 계산됩니다.
– 쿠폰을 사용하여 강의를 결제하신 후 취소/환불 시 쿠폰은 복구되지 않습니다.

– 수강시작 후 7일 이내, 100% 환불 가능합니다.(단, 수강하셨다면 수강 분량만큼 차감)
– 수강시작 후 7일 초과 시 정상 수강기간(유료 수강기간) 대비 잔여일에 대해 다음과 같이 환불 가능합니다.
환불요청일 시 기준
: 수강시작 후 1/3 경과 전, 실 결제금액의 2/3에 해당하는 금액 환불
: 수강시작 후 1/2 경과 전, 실 결제금액의 1/2에 해당하는 금액 환불
: 수강시작 후 1/2 경과 후, 환불 금액 없음

* 보다 자세한 환불 규정은 홈페이지 취소/환불 정책에서 확인 가능합니다.

패스트캠퍼스 정책 안내 [패스트캠퍼스 아이디 공유 금지 정책]
패스트캠퍼스의 모든 온라인 강의에서는 1개의 아이디로 여러명이 공유하는 형태를 금지하고 있습니다.
동시접속에 대한 기록은 내부 시스템을 통해 자동으로 누적되며, 이후 서비스 이용이 제한될 수 있습니다.

[기기제한 정책]
패스트캠퍼스 온라인 강의 시청을 위해서는 ID별 최대 3개의 기기를 등록할 수 있으며, 기기 등록은 온라인 강의장 접속 시 자동 등록됩니다.
최대 갯수를 초과하였을 경우 등록된 기기 해제가 필요합니다.

[저작권 정책]
패스트캠퍼스의 모든 강의는 무단 배포 및 가공하는 행위, 캡쳐 및 녹화하여 공유하는 행위, 무단으로 판매하는 행위 등 일체의 저작권 침해 행위를 금지합니다.
부정 사용이 적발될 경우 저작권법 위반에 의한 법적인 제재를 받으실 수 있습니다.

root layout