DeepSeek r1영상 질문

강의 질문

AI TECH

2025.03.17 11:19 수정

DeepSeek r1 영상 51:19 부분 질문이 있습니다.

RL이 수렴한 후에 체크포인트에서 SFT 데이터 수집한다는 말씀 하시고,

SFT -> RL -> SFT 이렇게 학습한다고 얘기하셨는데

앞에 SFT 부분이 Cold Start 데이터인지 궁금합니다.

논문 Overview 에서

"In this study, we demonstrate that reasoning capabilities can be significantly improved through large-scale reinforcement learning (RL), even without using supervised fine-tuning (SFT) as a cold start." 라고 Deepseek-r1-zero 설명으로 "cold start"는 SFT 데이터를 의미하는 것이 아니라, 지도 학습 없이 시작하는 초기 상태를 뜻 하는 거라 판단되고 논문에서 cold start 를 SFT라고 칭하는 걸 못 봐서 의아합니다. Supervised로 정답이 있는 데이터셋인데 DeepSeek-r1-zero로 나온 output으로 만들었고 후처리를 통해 정제 했다고만 했는데 SFT라고 칭한 이유가 궁금하네요.

그렇게 되면 Cold Start를 Supervised Fine-Tuning 이라고 부르는 것은 잘 못된 설명이지 않을까 문의드립니다.

Fast Campus

DeepSeek r1영상 질문

답변

연관 질문

실습 환경 질문드립니다.

COT steering 데이터

처음에 미세조정할 때 사용할 CoT 데이터셋은 어떻게 만드나요?

root layout

실습 환경 질문드립니다.

COT steering 데이터

처음에 미세조정할 때 사용할 CoT 데이터셋은 어떻게 만드나요?