ONLINE   #GPU #NVIDIA #LLM 모델 파인튜닝 #LLM 모델 추론 #PEFT #메모리 최적화

LLM 모델 파인튜닝을 위한 GPU 최적화

LLM 모델을 활용하여 AI 서비스를 개발하면서 발생하는 대표 2가지 병목인 모델 학습 시 Fine-Tuning에서 발생하는 메모리 리소스 제약,
Inference를 할 때 발생하는 Latency 증가 문제를 해결해줄 수 있는 GPU 최적화 강의

기본 정보
∙ 약 25시간 분량의 LLM 모델 학습 & 추론을 위한
ㅤGPU 최적화 강의
• LLM 모델을 활용한 서비스의 핵심인 GPU 자원을
ㅤ다룰 수 있는 방법을 알려주는 강의

강의 특징
• 수강료 1회 결제로 평생 소장 

영상 공개
∙ 1차 공개 : 2024년 08월 30일
∙ 2차 공개 : 2024년 09월 27일
∙ 전체 공개 : 2024년 10월 25일

(자동)
정가 (자동)
할인 금액 (자동)
현재 판매가 (자동)

(자동)

* 12개월 무이자 할부 시
코스 프로모션 배너 전용입니다.
0 0시간 0 0 코스 프로모션 배너 전용입니다.

AI/LLM 서비스 개발 시 발생하는 대표적인 병목 현상
이들의 공통점은?

마이크로소프트

목적에 맞는 AI/LLM 서비스를 개발하면서 고려해야 할 Fine-Tuning과 Inference를 효과적으로
수행하기 위한 GPU 최적화
가 최근 AI/LLM 서비스 개발의 핵심 요소로 고려되고 있습니다.

글로벌 IT 빅테크 기업들의
AI/LLM 서비스 개발을 위한 GPU 최적화 트렌드

이미 글로벌 IT 빅테크 기업들은 맞춤형 AI/LLM 서비스를 위한 자체 GPU 생태계 개발에
박차를 가하며 본격적으로 GPU 생산 및 개발에 뛰어들고 있습니다.

그러나

기업들은 AI/LLM 서비스를 개발하면서
GPU 리소스 부족 문제를 겪고 있습니다.

출처 - 2024년 AI 인프라 현황 : 미래 전망, 주요 통찰력 및 비즈니스 벤치마크 공개 설문조사

그래서!
패스트캠퍼스와 이승유 개발자가 뭉쳤습니다!

Open Ko-LLM LedaderBoard에서 최장기간 성능 1위 모델 개발!
GPU 최적화 전문가 이승유의 LLM 모델 파인튜닝을 위한 GPU 최적화

AI/LLM 서비스를 개발하면서 모델 파인튜닝 과정에서
GPU 최적화가 필요한 이유는 무엇인가요?

AI/LLM 업계 전문가들이 인정하는
이승유 개발자에게 배우는 LLM 모델 파인튜닝을 위한 GPU 최적화

기간 한정 스페셜 패키지

여러분을 LLM 전문가로 만들어 줄 두 강의를
훨씬 저렴한 가격으로 한 번에!
LLM 파인 튜닝에 대한 개념부터 실전 LLM 서비스 개발을 위한 노하우까지 평생 수강하세요.

* 본 묶음 상품은 1+1 페이백 등 프로모션에 해당되지 않습니다.

번들강의이미지
총 10과목
정가 0원
할인 판매가 0% 할인 0원
12개월 할부 월 0원

맞춤형 LLM 서비스 개발 과정에서 발생하는 가장 큰 병목, GPU 최적화를
해결하기 위해 이승유 개발자가 준비한 8가지 스폐셜 포인트!

POINT 1

GPU의 기초 개념을 이해하기 위한 LLM

GPU를 활용하여 LLM을 학습하는 이유와 Transformer의 Decoder 성능 증가 원리,
모델 크기가 커지면서 다량의 GPU 메모리가 필요함에 따른 효율적 관리 방법을 학습합니다.

Local GPU와 Cloud GPU 환경 간 차이점을 이해하고
개발하고자 하는 LLM 서비스에 맞는 GPU를 선택하는 방법을 학습합니다.

POINT 2

Single-GPU 환경에서 GPU 최적화 기법 학습

QLoRA, PEFT 등의 방법을 활용하여 Single GPU 환경에서
LLM 모델을 학습하면서 메모리를 절약하는 방법을 배웁니다.

Single GPU 환경에서 가장 높은 성능을 발휘하는 PEFT 노하우 학습!

Middle Project 1 >>
Single GPU 환경에서 GPU 최적화로 LLM 모델 Fine-Tuning을 위한 QLora Fine-Tuning 프로젝트 실습

Single GPU(제한된) 환경에서 가장 높은 모델 성능을 낼 수 있는 QLoRA 기법을 활용하여
GPU를 최적화할 수 있는 LLM 모델 Fine-Tuning 실습을 진행합니다.

| 프로젝트 실습 개요
• 활용하는 모델 : beomi/Llama-3-Open-Ko-8B
• Fine-Tuning 방법론 : QLoRA(Single GPU 환경에서 제일 최적화 된 방법론)
• Data : Ko-Optimize Dataset
| 학습 포인트
• Single GPU, 즉 리소스가 명확하게 제한된 환경에서 Fine-Tuning을 진행하기 위한 Optimizer, Batch Size, Tensor Type, Length 등 주요 요소를 고려하여 하이퍼파라미터 최적화 방법을 학습합니다.
• LLM 모델에서 Single GPU를 활용한 연산 과정을 거칠 때, 다량의 연산량으로 인해 모델의 속도가 느려질 수 있기에 모델의 Input/Output 통로에서 연산량을 최소화하는 Flash Attention 기법을 학습합니다.

| 프로젝트 실습 과정

POINT 3

Multi-GPU 환경에서 GPU 최적화 기법 학습

LLM 모델의 크기가 커지고, 데이터의 양이 방대해지면서 제한된 하드웨어에 맞추거나 학습 시간을
단축하기 위한 여러 GPU 환경에서 LLM 모델을 학습할 수 있는 분산 학습 방법을 학습합니다.

GPU 최적화와 분산처리 기법을 수행하기 위해 활용되는
2가지 대표 라이브러리도 학습합니다!

Middle Project 2 >>
Multi-GPU 환경에서 GPU 최적화를 위해 활용되는 대표 2가지 분산학습 프로젝트 실습

메모리 제한으로 인한 하드웨어의 한계를 벗어나 다수의 GPU를 활용하여 학습시간을 단축시킬 수 있는
분산학습을 활용하여 대규모 AI 서비스 운영에 필요한 GPU 최적화 프로젝트 실습을 진행합니다.

| 프로젝트 실습 개요
• 활용하는 모델 : beomi/Llama-3-Open-Ko-8B
• 분산학습 방법론 : QLoRA
• Data : Ko-Optimize Dataset


| 학습 포인트
• Single-GPU 환경에서 모델의 파라미터를 적재할 수 없는 경우 Multi-GPU 환경에서 1개 LLM 모델의 파라미터를 다수의 GPU에 분산하는 Model Parallelism 방법을 학습합니다.
• Model Parallelism 방법은 Transformer 라이브러리에서 쉽게 적용 가능하기에 Multi-GPU 최적화 기법에서 주로 쓰이는 기법입니다.
• 기존 최적화 기법들이 모델을 수직 분할하는 것과 다르게 MP 방법론은 모델을 수평 분할하여 분산시키면서 통신 오버헤드를 감소하고 병렬 처리 성능을 극대화하는 방법을 학습합니다.

| 프로젝트 실습 개요
• 활용하는 모델 : beomi/Llama-3-Open-Ko-8B
• 분산학습 방법론 : Full Fine-Tuning
• Data : Ko-Optimize Dataset


| 학습 포인트
• Multi-GPU 환경에서 다수의 LLM 모델 각각의 파라미터, 그라디언트, 옵티마이저를 각 GPU에 분산하고 파인튜닝을 최적화할 수 있는 Axolotl 환경에서 구동하는 방법을 학습합니다. (대규모 데이터 셋 환경에서 장점)

• 그러나 Forward 과정에서 모델의 각 Layer를 통과할 때마다 All Gather 연산과 그라디언트를 계산하기 위해 GPU에 저장되어 있는 파라미터를 가져오다 보니 메모리 부담이 심할 때가 있습니다.
• 활용하고 있지 않는 학습 영역에서 메모리를 할당하고 있지 않는 Zero 기법의 특징을 같이 이용하여 GPU 부담을 줄이고 최적화하는 방법을 학습합니다.

Special Project

3개의 프로젝트로 끝내는 GPU Fine-Tuning & Inference 최적화

Multi-GPU 환경에서 각각 LLM 모델의 메모리 최적화와 Latency 증강을 위한
3개의 Final 프로젝트 실습으로 GPU 활용 방법을 완벽하게 학습할 수 있습니다.

Final Project 1 >>
한정된 GPU 메모리 환경에서 Fine-Tuning 성능을 극대화하기 위한 SFT+DPO Fine-Tuning 프로젝트 실습

개인화 된 맞춤 서비스 구성을 위한 SFT 기법과 직접 선호 최적화 DPO 기법을 활용하여
실전 AI 서비스 개발에 적합한 LLM 모델을 구성하는 방법을 직접 실습을 통해 구현합니다.

Step 01

LLM 오픈소스 모델 별 특징 파악

Step 02

SFT + DPO 과정을 통해 최종 파인튜닝 모델 구성

| 학습 포인트
• Near-Dedup 과정을 통해 중복된 데이터 셋을 제거하고 활용성이 높은 데이터만 남겨두는 방법을 학습합니다.
• 오픈소스 LLM 모델 선정을 위한 기준을 학습하며 SFT + DPO를 위한 베이스 모델을 선정합니다.
• 베이스 모델과 최종 Fine-Tuning 된 Weights 값의 Adapter를 병합하여 최종 SFT 모델을 생성합니다.
• 생성된 SFT 모델과 DPO 전용 데이터 셋을 만들어 직접적으로 사용자의 선호도를 반영한 DPO 모델을 생성하는 방법을 학습합니다.

Final Project 2 >>
Multi-GPU 환경에서 LLM 모델 Latency 최적화를 위한 Inference 프로젝트

개인화 된 맞춤 서비스 구성을 위한 SFT 기법과 직접 선호 최적화 DPO 기법을 활용하여
실전 AI 서비스 개발에 적합한 LLM 모델을 구성하는 방법을 직접 실습을 통해 구현합니다.

Step 01

LLM Inference에 대표적으로 활용되는 3가지 Infernece 라이브러리 학습

Step 02

Multi-GPU 환경에서 LLM 모델 Latency 최적화를 위한 2개의 Inferece 파이널 프로젝트

Plus Point

Fine-Tuning에 특화된 GPU 최적화 심화 기법 학습

LLM 모델의 Fine-Tuning에 최적화 된 GPU 최적화 Tip을 학습하여
추가로 모델 성능을 올릴 수 있는 방법도 같이 학습합니다.

학습 Case 1. Fine-Tuning 성능을 높이기 위한 전처리 노하우 3가지!

학습 Case 2. 적절한 Prompt Template을 활용하여 Fine-Tuning

POINT 01

Fine-Tuning 과정에서 Prompt Template를
활용해야 하는 이유는?
LLM 모델을 Fine-Tuning하면서 Prompt Template를 활용해야 하는 이유는 LLM Task의 명확한 작업 이행, 일관성 유지, 문제 해결 능력 향상, 모델이 이미 학습한 지식을 끌어내어 사용할 수 있기에 모델 성능 증강을 위한 Prompt Template를 사용할 줄 알아야 합니다.

POINT 02

대표적으로 활용되는 Prompt Template는
어떤 Template들이 있을까요?

학습 Case 3. LLM 모델의 하이퍼파라미터 설정 시 주요하게 봐야 할 2가지 포인트

학습 Case 4. LLM 모델의 성능을 평가할 수 있는 대표 2가지 판단 요소

LLM 모델 성능 증가를 위한 추가 판단 기준
LLM 모델 성능을 올리기 위해 꼭 Tokenizer를
확장하는 것이 중요한가요?
Tokenizer를 확장하면 GPU의 메모리 측면에서 효과를 볼 수 있으나 다만 성능이 하락하게 되는 경우가 있어 무조건 Tokenizer를 확장하는 것이 좋다고 이야기 할 수는 없습니다. 현실적인 Tip은 메모리 이득이 30% 이상일 경우 Tokenizer를 확장하는 것이 모델 성능 향상에 도움을 줄 수 있습니다.

커리큘럼

아래의 모든 강의를 초격차 패키지 하나로 모두 들을 수 있습니다.
지금 한 번만 결제하고 모든 강의를 평생 소장하세요!

Part 01. LLM과 GPU의 기초

Part 02. Single GPU 환경에서의 Fine-Tuning

Part 03. Multi-GPU 환경에서의 분산 학습

Part 04. GPU 최적화 기법 심화

Part 05. Fine-Tuning & Inference 프로젝트 실습 및 응용

이 강의도 추천해요.

상세 커리큘럼

자세한 커리큘럼 및 내용은 여기서 확인하세요!

Question 1
어떤 분들이
수강하시면 좋을까요?
AI/LLM 서비스를 개발하고 배포하기 위해서는 GPU 자원을 최적화하는 것이
가장 중요합니다. 이 강의에서는 GPU 자원을 활용하여 AI Application을 
개발하고자 하는 AI Engineer & 개발자분들께서 수강하신다면 효율적인
LLM 서비스 개발을 하실 수 있을 것이라 생각합니다.

Question 2
해당 주제를 학습하면서 겪는
가장 대표적인 어려움은 무엇인가요?
AI/LLM 서비스를 개발하면서 겪는 가장 큰 어려움은 바로 Fine-Tuning 과정에서
GPU 메모리 부족 문제가 발생하는 점입니다. 이 강의에서는 한정된 GPU 자원 속 Fine-Tuning 성능을 최적화하기 위한 방법들을 학습하며 자원 크기에 구애받지 않고
LLM의 성능을 높일 수 있는 방법을 학습합니다.

Question 3
강의를 수강한 후에 어떤 내용을 학습할 수 있나요?
단순한 Fine-Tuning Tip이 아닌, LLM Leadeboard & Ko-Leaderboard에서 최장기간 1순위 자리를 지키며 높은 성능을 낼 수 있었던 저만의 Fine-Tuning Tip과 GPU 최적화 기법을 학습하여 LLM 서비스 개발 및 배포 과정에서 한층 더 성장할 수 있는 계기가 될 것이라 확신합니다.

Question 4
개발 환경
• Google Colab 활용 Local GPU (유료)
• Cloud GPU(AICA)