[번들용] LLM 모델 파인튜닝을 위한 GPU 최적화
ONLINE   #GPU #NVIDIA #LLM 모델 파인튜닝 #LLM 모델 추론 #PEFT #메모리 최적화
LLM 모델 파인튜닝을 위한 GPU 최적화
LLM 모델을 활용하여 AI 서비스를 개발하면서 발생하는 대표 2가지 병목인 모델 학습 시 Fine-Tuning에서 발생하는 메모리 리소스 제약,
Inference를 할 때 발생하는 Latency 증가 문제를 해결해줄 수 있는 GPU 최적화 강의
기본 정보
ㅤGPU 최적화 강의
• LLM 모델을 활용한 서비스의 핵심인 GPU 자원을
ㅤ다룰 수 있는 방법을 알려주는 강의
강의 특징
* 특별 구성 묶음 상품의 경우 1+1이나 페이백, 쿠폰 등의 이벤트/프로모션과 중복 혜택 적용이 불가합니다.
AI/LLM 서비스 개발 시 발생하는 대표적인 병목 현상
이들의 공통점은?
목적에 맞는 AI/LLM 서비스를 개발하면서 고려해야 할 Fine-Tuning과 Inference를 효과적으로
수행하기 위한 GPU 최적화가 최근 AI/LLM 서비스 개발의 핵심 요소로 고려되고 있습니다.
글로벌 IT 빅테크 기업들의
AI/LLM 서비스 개발을 위한 GPU 최적화 트렌드
이미 글로벌 IT 빅테크 기업들은 맞춤형 AI/LLM 서비스를 위한 자체 GPU 생태계 개발에
박차를 가하며 본격적으로 GPU 생산 및 개발에 뛰어들고 있습니다.
그러나
기업들은 AI/LLM 서비스를 개발하면서
GPU 리소스 부족 문제를 겪고 있습니다.
출처 - 2024년 AI 인프라 현황 : 미래 전망, 주요 통찰력 및 비즈니스 벤치마크 공개 설문조사
그래서!
패스트캠퍼스와 이승유 개발자가 뭉쳤습니다!
Open Ko-LLM LedaderBoard에서 최장기간 성능 1위 모델 개발!
GPU 최적화 전문가 이승유의 LLM 모델 파인튜닝을 위한 GPU 최적화
AI/LLM 서비스를 개발하면서 모델 파인튜닝 과정에서
GPU 최적화가 필요한 이유는 무엇인가요?
AI/LLM 업계 전문가들이 인정하는
이승유 개발자에게 배우는 LLM 모델 파인튜닝을 위한 GPU 최적화
맞춤형 LLM 서비스 개발 과정에서 발생하는 가장 큰 병목, GPU 최적화를
해결하기 위해 이승유 개발자가 준비한 8가지 스폐셜 포인트!
아직 고민 중이신가요?
강의를 미리 보고 결정하세요!👇
GPU의 기초 개념을 이해하기 위한 LLM
GPU를 활용하여 LLM을 학습하는 이유와 Transformer의 Decoder 성능 증가 원리,
모델 크기가 커지면서 다량의 GPU 메모리가 필요함에 따른 효율적 관리 방법을 학습합니다.
Local GPU와 Cloud GPU 환경 간 차이점을 이해하고
개발하고자 하는 LLM 서비스에 맞는 GPU를 선택하는 방법을 학습합니다.
Single-GPU 환경에서 GPU 최적화 기법 학습
QLoRA, PEFT 등의 방법을 활용하여 Single GPU 환경에서
LLM 모델을 학습하면서 메모리를 절약하는 방법을 배웁니다.
Middle Project 1 >>
Single GPU 환경에서 GPU 최적화로 LLM 모델 Fine-Tuning을 위한 QLora Fine-Tuning 프로젝트 실습
Single GPU(제한된) 환경에서 가장 높은 모델 성능을 낼 수 있는 QLoRA 기법을 활용하여
GPU를 최적화할 수 있는 LLM 모델 Fine-Tuning 실습을 진행합니다.
• 활용하는 모델 : beomi/Llama-3-Open-Ko-8B
• Fine-Tuning 방법론 : QLoRA(Single GPU 환경에서 제일 최적화 된 방법론)
• Data : Ko-Optimize Dataset
• Single GPU, 즉 리소스가 명확하게 제한된 환경에서 Fine-Tuning을 진행하기 위한 Optimizer, Batch Size, Tensor Type, Length 등 주요 요소를 고려하여 하이퍼파라미터 최적화 방법을 학습합니다.
• LLM 모델에서 Single GPU를 활용한 연산 과정을 거칠 때, 다량의 연산량으로 인해 모델의 속도가 느려질 수 있기에 모델의 Input/Output 통로에서 연산량을 최소화하는 Flash Attention 기법을 학습합니다.
| 프로젝트 실습 과정
Multi-GPU 환경에서 GPU 최적화 기법 학습
LLM 모델의 크기가 커지고, 데이터의 양이 방대해지면서 제한된 하드웨어에 맞추거나 학습 시간을
단축하기 위한 여러 GPU 환경에서 LLM 모델을 학습할 수 있는 분산 학습 방법을 학습합니다.
GPU 최적화와 분산처리 기법을 수행하기 위해 활용되는
2가지 대표 라이브러리도 학습합니다!
Middle Project 2 >>
Multi-GPU 환경에서 GPU 최적화를 위해 활용되는 대표 2가지 분산학습 프로젝트 실습
메모리 제한으로 인한 하드웨어의 한계를 벗어나 다수의 GPU를 활용하여 학습시간을 단축시킬 수 있는
분산학습을 활용하여 대규모 AI 서비스 운영에 필요한 GPU 최적화 프로젝트 실습을 진행합니다.
| 프로젝트 실습 개요
• 활용하는 모델 : beomi/Llama-3-Open-Ko-8B
• 분산학습 방법론 : QLoRA
• Data : Ko-Optimize Dataset
| 학습 포인트
• Single-GPU 환경에서 모델의 파라미터를 적재할 수 없는 경우 Multi-GPU 환경에서 1개 LLM 모델의 파라미터를 다수의 GPU에 분산하는 Model Parallelism 방법을 학습합니다.
• Model Parallelism 방법은 Transformer 라이브러리에서 쉽게 적용 가능하기에 Multi-GPU 최적화 기법에서 주로 쓰이는 기법입니다.
• 기존 최적화 기법들이 모델을 수직 분할하는 것과 다르게 MP 방법론은 모델을 수평 분할하여 분산시키면서 통신 오버헤드를 감소하고 병렬 처리 성능을 극대화하는 방법을 학습합니다.
| 프로젝트 실습 개요
• 활용하는 모델 : beomi/Llama-3-Open-Ko-8B
• 분산학습 방법론 : Full Fine-Tuning
• Data : Ko-Optimize Dataset
| 학습 포인트
• Multi-GPU 환경에서 다수의 LLM 모델 각각의 파라미터, 그라디언트, 옵티마이저를 각 GPU에 분산하고 파인튜닝을 최적화할 수 있는 Axolotl 환경에서 구동하는 방법을 학습합니다. (대규모 데이터 셋 환경에서 장점)
• 그러나 Forward 과정에서 모델의 각 Layer를 통과할 때마다 All Gather 연산과 그라디언트를 계산하기 위해 GPU에 저장되어 있는 파라미터를 가져오다 보니 메모리 부담이 심할 때가 있습니다.
• 활용하고 있지 않는 학습 영역에서 메모리를 할당하고 있지 않는 Zero 기법의 특징을 같이 이용하여 GPU 부담을 줄이고 최적화하는 방법을 학습합니다.
3개의 프로젝트로 끝내는 GPU Fine-Tuning & Inference 최적화
Multi-GPU 환경에서 각각 LLM 모델의 메모리 최적화와 Latency 증강을 위한
3개의 Final 프로젝트 실습으로 GPU 활용 방법을 완벽하게 학습할 수 있습니다.
Final Project 1 >>
한정된 GPU 메모리 환경에서 Fine-Tuning 성능을 극대화하기 위한 SFT+DPO Fine-Tuning 프로젝트 실습
개인화 된 맞춤 서비스 구성을 위한 SFT 기법과 직접 선호 최적화 DPO 기법을 활용하여
실전 AI 서비스 개발에 적합한 LLM 모델을 구성하는 방법을 직접 실습을 통해 구현합니다.
LLM 오픈소스 모델 별 특징 파악
SFT + DPO 과정을 통해 최종 파인튜닝 모델 구성
| 학습 포인트
• Near-Dedup 과정을 통해 중복된 데이터 셋을 제거하고 활용성이 높은 데이터만 남겨두는 방법을 학습합니다.
• 오픈소스 LLM 모델 선정을 위한 기준을 학습하며 SFT + DPO를 위한 베이스 모델을 선정합니다.
• 베이스 모델과 최종 Fine-Tuning 된 Weights 값의 Adapter를 병합하여 최종 SFT 모델을 생성합니다.
• 생성된 SFT 모델과 DPO 전용 데이터 셋을 만들어 직접적으로 사용자의 선호도를 반영한 DPO 모델을 생성하는 방법을 학습합니다.
Final Project 2 >>
Multi-GPU 환경에서 LLM 모델 Latency 최적화를 위한 Inference 프로젝트
개인화 된 맞춤 서비스 구성을 위한 SFT 기법과 직접 선호 최적화 DPO 기법을 활용하여
실전 AI 서비스 개발에 적합한 LLM 모델을 구성하는 방법을 직접 실습을 통해 구현합니다.
Step 01
LLM Inference에 대표적으로 활용되는 3가지 Infernece 라이브러리 학습
Step 02
Multi-GPU 환경에서 LLM 모델 Latency 최적화를 위한 2개의 Inferece 파이널 프로젝트
Fine-Tuning에 특화된 GPU 최적화 심화 기법 학습
LLM 모델의 Fine-Tuning에 최적화 된 GPU 최적화 Tip을 학습하여
추가로 모델 성능을 올릴 수 있는 방법도 같이 학습합니다.
학습 Case 1. Fine-Tuning 성능을 높이기 위한 전처리 노하우 3가지!
학습 Case 2. 적절한 Prompt Template을 활용하여 Fine-Tuning
POINT 01
활용해야 하는 이유는?
POINT 02
대표적으로 활용되는 Prompt Template는
어떤 Template들이 있을까요?
학습 Case 3. LLM 모델의 하이퍼파라미터 설정 시 주요하게 봐야 할 2가지 포인트
학습 Case 4. LLM 모델의 성능을 평가할 수 있는 대표 2가지 판단 요소
LLM 모델 성능을 올리기 위해 꼭 Tokenizer를
확장하는 것이 중요한가요?
커리큘럼
아래의 모든 강의를 초격차 패키지 하나로 모두 들을 수 있습니다.
지금 한 번만 결제하고 모든 강의를 평생 소장하세요!
Part 01. LLM과 GPU의 기초
Part 02. Single GPU 환경에서의 Fine-Tuning
Part 03. Multi-GPU 환경에서의 분산 학습
Part 04. GPU 최적화 기법 심화
Part 05. Fine-Tuning & Inference 프로젝트 실습 및 응용
상세 커리큘럼
자세한 커리큘럼 및 내용은 여기서 확인하세요!
어떤 분들이
수강하시면 좋을까요?
해당 주제를 학습하면서 겪는
가장 대표적인 어려움은 무엇인가요?
강의를 수강한 후에 어떤 내용을 학습할 수 있나요?
개발 환경
• Cloud GPU(AICA)










































