LLM 모델 개발부터 4개 프로젝트로 완성하는 도메인 특화 파인튜닝 w.추론

파인튜닝, 한 번 돌려본다고 성능이 오르는 것이 아닙니다.

진짜 내 ‘도메인’에 맞는 LLM을 만들고 싶다면,
다음 세 가지를 스스로 판단할 수 있어야 합니다.

도메인 특화 파인튜닝 성능을 위한 3가지 필수 요소

도메인 특화 LLM을 제대로 만들기 위해선 단순히 모델을 학습시키는 것을 넘어, 
데이터 설계, 전략 선택, 반복 개선까지 실전에서 다뤄봐야 합니다.

01. 프로젝트

도메인 파인튜닝의 모든 것
성능 개선 올-사이클 4개 프로젝트

| 프로젝트 사이클 미리보기

| Project 01

공개 데이터로 시작하는 생성 모델 파인튜닝

| 프로젝트 소개
HuggingFace에서 도메인 데이터를 수집하고,
SFT 파인튜닝과 정량·정성 평가까지의 기본 흐름을 학습합니다.

| 주요 학습 포인트
• 공개 데이터(HuggingFace)기반 도메인 적합 데이터 수집 및 분석
• 기본 구조의 SFT 파인튜닝 적용
• wandb를 활용한 학습 로깅과 튜닝 관리
• 정량·정성적 평가 지표 기반 성능 해석

▶ 실습 프로세스 자세히보기

1. 데이터 수집 및 전처리
HuggingFace에서 도메인 적합 데이터 탐색
instruction 형태 변환 및 필터링, 포맷 통일

2. SFT 환경 셋업 및 학습 실행
Runpod + Axolotl 세팅, CUDA, deepspeed 설정
LoRA 기반 효율적 튜닝 적용

3. 학습 로깅 및 성능 추적
wandb로 loss curve 모니터링
학습 중 하이퍼파라미터 조정

4. 모델 성능 평가
LM-Eval, HRET 등 정량적 평가
정성적 예시 샘플 직접 비교

| Project 02

데이터 재설계와 DPO로 성능 끌어올리기

| 프로젝트 소개
SFT 결과 분석을 통해 문제점을 진단하고,
pairwise 데이터를 생성해 DPO 튜닝으로 성능을 개선하는 방법을 학습합니다.

| 주요 학습 포인트
• 모델 한계 진단과 문제 포인트 정의
• OpenAI 활용 pairwise 데이터 생성
• DPO 기법 실습 및 성능 비교
• 파인튜닝 결과 개선을 위한 반복 루프 적용

▶ 실습 프로세스 자세히보기

1. 기존 모델 분석 및 오류 유형 정리
SFT 모델 응답 분석 → 오류 유형 분류
성능 저하 원인 진단

2. pairwise 데이터셋 생성 및 가공
OpenAI batch API 사용 → 응답 생성
좋음/나쁨 응답 분류, instruction matching

3. DPO 파인튜닝 적용
reward 기반 튜닝 구조 이해
wandb로 reward 추적 & loss 모니터링

4. 성능 개선 확인 및 전략 비교
SFT vs DPO 비교
개선된 응답 예시 리뷰 및 정성 평가

| 프로젝트 사이클 미리보기

| Project 03

프롬프트 기반 데이터 생성으로 수학·코딩 모델 튜닝하기

| 프로젝트 소개
OpenAI API를 활용해 프롬프트 기반 데이터를 생성하고,
논리 기반 태스크에 적합한 SFT 파인튜닝과 평가를 학습합니다.

| 주요 학습 포인트
• 수학/코딩 문제형 프롬프트 설계
• OpenAI로 고품질 학습 데이터 생성
• 논리 기반 문제에 맞는 SFT 적용법
• Task 특화 정답 기반 평가 방식 실습

▶ 실습 프로세스 자세히보기

1. 프롬프트 설계 및 OpenAI 데이터 생성
다양한 난이도의 수학/코딩 문제 프롬프트 작성
응답 다양성 확보 → 학습용 구성

2. 데이터 필터링 및 검수
Rule-based 검수 (형식·논리 기준)
필요한 경우 소규모 수작업 보정

3. SFT 파인튜닝 적용
LoRA 적용 + 학습 효율 전략 (gradient checkpointing 등)
태스크 중심 loss 모니터링

4. 정확도 기반 성능 평가
테스트 문제 기준 정답 채점
reasoning 길이, 정확도, 일관성 분석

| Project 04

추론 최적화를 위한 ORPO 기반 고급 튜닝 실습하기

| 프로젝트 소개
추론 성능이 부족한 모델을 개선하기 위해 데이터를 재설계하고,
ORPO 및 Test-time 전략을 적용하는 고급 튜닝을 학습합니다.

| 주요 학습 포인트
• reasoning 강화용 데이터 재설계 (CoT, curriculum)
• ORPO 적용 및 RL 기반 reward 전략 학습
• LLM-as-a-Judge를 활용한 정성 평가
• reasoning task에서의 튜닝 전략 비교

▶ 실습 프로세스 자세히보기

1. reasoning 데이터 재설계
번역 기반 증강, CoT 프롬프트 생성
쉬운 문제 → 어려운 문제 순으로 구성 (curriculum 설계)

2. ORPO 기반 추론 튜닝
기존 모델 응답 대비 개선 유도 구조 이해
reward model 적용 방식 설계

3. 평가 지표 다각화
LLM-as-a-Judge를 통한 응답 평가
Test-time scaling 전략 적용 여부 실험

4. 반복 개선 및 튜닝 전략 피드백
기존 응답 vs 개선된 응답 비교
실패 케이스 분석 → 다음 루프 전략 설계

기간 한정 패키지

도메인 특화 LLM부터 Multi-Agent 자동화까지,
이 두 강의로 한 번에 마스터할 수 있어요!

▼ 지금 패키지로 구매 시 최대 25% 할인 ▼

1인개발, AI, ai코딩, bolt.ai, cline, CursorAI, Figma, Figma MCP, lovable, MCP, vibe, vibecoding, windsurf, 개발입문, 바이브, 바이브코딩, 비개발자, 비전공자, 생성AI, 수익, 수익화, 왕초보, 조대협, 커서, 커서ai, 코딩, 코딩입문, 생성 AI, 업무생산성, 수익화, 피터레벨스, GPT, Chatgpt, 챗지피티, 비개발자, 앱개발, 웹개발, 서비스개발, cursor ai, 커서, 커서ai, 챗봇, sns 사이트, 회의록, 에이전트, 투두 만들기, supabase, mvp, 디자인, 개발

판매 기간이 종료된 상품입니다.

02. 데이터셋

좋은 성능을 내기 위한 필수 요소
구매자 전원 ‘340만원 상당’ 데이터셋 제공

제대로 만들려면 약 340만 원 드는 학습 데이터셋...
직접 만들기엔 GPU도, 시간도, 비용도 부족하시다구요?

이 강의에서는 그 모든 과정을 단축했습니다.
도메인별 전략에 맞춰 강사님이 직접 구축한 학습용 데이터셋을 그대로 제공합니다.

*해당 데이터셋 직접 학습 시 Batch API MAX 기준으로 산정된 가격입니다.
*25.05 기준 환율 적용된 가격입니다.
*데이터셋은 Hugging Face를 통해 Parquet 형식으로 제공되며, 프로젝트 파트 공개 일정에 맞춰 순차적으로 업로드될 예정입니다.

03. 파인튜닝 기법

실전 성능 튜닝에 특화된 효율을 찾아서!
총 11개 전략적 파인튜닝 기법

Point 1

지도학습 기반 파인튜닝

정답 데이터를 따라 학습하는 기본 방식

• SFT (Supervised Fine-Tuning)
▶ 자세히보기

SFT는 사전 정의된 정답 데이터를 기반으로 모델을 학습시키는 가장 기본적인 파인튜닝 방식

• CFT (Critique Fine-Tuning)
▶ 자세히보기

CFT는 모델의 출력을 평가하고 피드백을 반영하여 더 나은 결과를 유도하는 파인튜닝 방식

Point 2

선호 기반 최적화 파인튜닝

비교, 순위, 선택을 통해 모델을 조정하는 파인튜닝 방식

• DPO (Direct Policy Optimization)
▶ 자세히보기

사람의 응답 선호(좋은/나쁜)를 비교 학습에 직접 반영하는 기법

• ORPO (Odds Ratio Preference Optimization)
▶ 자세히보기

DPO보다 개선된 구조로, 기존의 SFT와 Preference Optimization을 결합한 방법론

• IPO/KTO/AlphaPO
▶ 자세히보기

DPO/ORPO 이후 가장 최신의 Preference Optimization 방법론들에 대한 리뷰

Point 3

강화학습 기반 파인튜닝

보상 신호를 바탕으로 행동을 강화하는 파인튜닝 방식

• PPO (Proximal Policy Optimization)
▶ 자세히보기

안정적인 보상 최적화를 위한 RLHF의 기반 대표 RL 기법

• RLOO (REINFORCE Leave-One-Out)
• GRPO (Group Relative Policy Optimization)
▶ 자세히보기

RLOO, GRPO 등 더 효율적인 강화학습 방법론들에 대한 리뷰

Point 4

안정적인 파인튜닝을 위한 방법론

복잡한 최적화 구조를 통합하거나 학습 안정성을 확보하기 위한 파인튜닝

• BSR (Batch-wise Sum-to-Zero Regularization)
▶ 자세히보기

batch 단위의 정규화를 통한 더욱 안정적인 reward model 학습 방법론

• LLM-Judge / Reward Model (RM) 을 활용한 데이터셋 필터링
▶ 자세히보기

언어모델을 활용한 자동화된 데이터셋 필터링을 통한 추가 성능 개선

* 해당 기법들은 프로젝트 및 논문 리뷰를 통해 학습합니다.

11개의 파인튜닝 기법, 우리 강의에서 어떻게 다뤄주나요?

04. 추론 학습

고난이도 문제 해결을 위한 해결사! 그러나 잘못 쓰면 오류가?
도메인 특성에 따른 추론 학습 톺아보기

이 강의에서는 단순히 추론 기법을 따라 하는 것이 아니라,
왜 reasoning이 필요한가 / 어떤 도메인에서 유효한가 / 어떤 경우에는 비효율적인가를 비교·판단하도록 설계되어 있습니다.

추론!

잘 쓰면 정확도와 설득력을 모두 잡고, 
잘못 쓰면 혼란과 오류를 유도해요.
그래서 우리 강의에선?

05. 논문 리뷰

LLM 실무와 이론, 모두를 꿰뚫는 논문의 힘!
총 50편+ 의 최신 논문 리뷰

빠르게 바뀌는 LLM 트렌드에 대비할 수 있도록
새롭게 등장하는 최신 논문 리뷰 영상 업데이트

학습 범위를 넘어서 더 깊이 있는 이해를 원하는 분들을 위해
별도 부록으로 엄선된 추천 논문 2편 리뷰가 추가 제공됩니다.

*일부 논문은 강의에 필요한 핵심 내용만 발췌해 다룹니다.
*추가로 업데이트 되는 논문은 25년 6월부터 26년 6월까지, 총 2번 진행됩니다.

이 커리큘럼과 프로젝트를
모두 가르쳐 줄 수 있는 ‘진짜 실력자’ 강사님

06. 강사 소개

Ko-R1-1.5B 모델을 국내 최초 개발한
실전형 LLM 전문가 손규진 강사님

손규진 강사님

도메인 파인튜닝의 모든 것을 알려줄
손규진 입니다.

– 현) 現 OneLineAI, CDO
– 현) 모두의연구소 HAERAE LAB, 공동 랩장
– 현) 연세대학교, 해례(KMMLU, HAERAE Bench) 팀 리드
– 전) Qraft Technologies Financial NLP Researcher
– 전) FuturePlay Data Analyst

[연구]
[ACL 2025 (Main)] Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning
[ACL 2025 (Industry)] Won: Establishing Best Practices for Korean Financial NLP
[ICML 2025] On the Robustness of Reward Models for Language Model Alignment
[NAACL 2025 (Main)] KMMLU: Measuring Massive Multitask Language Understanding in Korean
[NAACL 2025 (Main)] The BIGGEN BENCH: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models
[ACL 2024 (Main)] Multi-Task Inference: Can Large Language Models Follow Multiple Instructions at Once?

[강연]
[모두팝] R1 파헤치기, Ko-R1 개발기
[모두팝] 한국어 언어모델 "잘" 평가하기
[모두콘2023] 언어 모델은 어떻게 평가해야 할까?

안녕하세요, OneLineAI에서 인공지능 연구를 하고 있는 손규진입니다.

서비스 개발 / 연구 / 개인 프로젝트 등 다양한 이유로 LLM 을 접할 일이 많은 요즘 입니다. 그러나 튜토리얼 이나 논문을 따라 모델을 구현하다 보면 예상치 못한 문제들이 등장하고, 원하는 성능이 나오지 않고는 합니다. 다양한 원인과 해결방안들이 존재하겠지만, 대부분의 경우 목표하는 바와 align 되는 벤치마크를 설정하고 [모델 학습] [성능 평가] [환류] 로 이루어지는 체계적인 과정을 통해 꾸준한 성능 향상을 이루어낼 수 있습니다. 저는 KMMLU와 HAE-RAE Bench 등 국내 대기업에서 모두 사용하는 벤치마크들을 구축한 바 있으며, 최근에는 Ko-R1 프로젝트와 "Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning" 연구를 진행하며 다양한 학습 데이터셋을 제작하였습니다. 금번 강의에서는 이러한 경험을 토대로 목표에 맞는 데이터셋과 모델을 만드는 법을 공유드리고자 합니다. 강의를 마친 후, 수강생분들이 본인에 용도 및 사용처에 맞추어 직접 필요한 데이터를 직접 기획/제작하고, 모델을 목표한 바에 맞추어 학습할 수 있으면 좋을 것 같습니다. 아울러 파인튜닝의 전체 워크플로우를 단계별로 실습하며, 데이터 준비에서 최종 모델 완성까지 스스로 실행하고 최적화할 수 있는 실전 역량을 갖추게 될 것입니다. 모두가 원하시는 바를 얻어가실 수 있도록 최선을 다하겠습니다.

| LLM의 실무 전문가 손규진님의 다양한 강연 활동

실무에서 진짜 인정 받는 실력과 강의력을 모두 갖춘 개발자 손규진님!
AI 분야의 찐 실력자 분들의 추천사를 확인하세요.

07. 특별 혜택

본 강의 수강생 분들께만 드리는 혜택!

* 정리본은 강의 전체 오픈 시 github 형태로 제공됩니다.
* 질의응답은 패스트캠퍼스 커뮤니티에서 진행됩니다. (25.05.26~28.05.25)

QUESTION 1.

어떤 분들이
수강하시면 좋을까요?

• LLM 모델을 직접 개발하고 싶은 AI 개발자/연구자
• 특정 도메인에 맞춘 LLM 성능 최적화가 필요한 실무자
• 파인튜닝은 해봤지만 성능 개선 방법을 체계적으로 배우고 싶은 사람
• 최신 논문 기반 튜닝 전략을 실전 프로젝트로 익히고 싶은 분

QUESTION 2.

도메인 파인튜닝에서 중요한 부분은
어디일까요?

도메인 특화 파인튜닝의 핵심은 특정 알고리즘 하나를 습득하는 것이 아니라, 주어진 과제와 환경을 재빨리 파악해 필요한 데이터와 학습 과정을 기획하는 일종의 "메타 역량"에 있습니다. 예를 들어 요약을 예시로 보더라도, 대화록을 간결하게 정리해야 할 때가 있고, 이메일 내용을 핵심 업무 항목으로 재구성해야 할 때가 있으며, 단순히 문서의 본문을 충실히 요약해 정보 손실 없이 전달해야 할 때도 있습니다. 어떤 경우에는 “다음에 무엇을 해야 할지” 단계별 가이드 형태의 아웃풋을 원할 수도 있고, 반대로 텍스트 전체의 핵심 주장이나 사실 관계만 뽑아내길 원할 수도 있습니다.

이처럼 매번 과제의 목표와 출력 형식이 달라지므로, 먼저 모델이 해결해야 할 과제를 명확히 정의한 뒤, 이와 유사한 시드 데이터셋을 구하고 prompting을 통해 최종적으로 원하는 형태의 합성 데이터셋을 만들어내야합니다. 완성된 모델은 실사용 환경과 유사한 평가 세트로 검증하며, 부족한 부분은 다시 데이터와 학습 과정을 보강하는 반복 과정을 거칩니다. 결국 도메인 파인튜닝이란 매번 새로운 요건에 맞춰 ‘어떤 데이터를 어떻게 만들고, 어떤 학습 절차를 거칠지’를 스스로 설계·조정하는 능력이라 할 수 있습니다.

QUESTION 3.

학습 비용이
별도로 발생하나요?

클라우드 GPU Runpod 비용 약 ~$100 정도가 발생합니다.

QUESTION 4.

기술 스택을 알려주세요.

프로그래밍 언어: Python
사용되는 기타 라이브러리: pandas, transformers, trl, axolotl, vllm
모니터링: WandB(무료플랜)
클라우드 GPU: Runpod (~$100)

Fast Campus