root layout

패스트캠퍼스

  1. 강의 질문
  2. 인공지능

DeepSeek r1영상 질문

2025.03.17 11:19 수정

DeepSeek r1 영상 51:19 부분 질문이 있습니다.


RL이 수렴한 후에 체크포인트에서 SFT 데이터 수집한다는 말씀 하시고,

SFT -> RL -> SFT 이렇게 학습한다고 얘기하셨는데


앞에 SFT 부분이 Cold Start 데이터인지 궁금합니다.


논문 Overview 에서

"In this study, we demonstrate that reasoning capabilities can be significantly improved through large-scale reinforcement learning (RL), even without using supervised fine-tuning (SFT) as a cold start." 라고 Deepseek-r1-zero 설명으로 "cold start"는 SFT 데이터를 의미하는 것이 아니라, 지도 학습 없이 시작하는 초기 상태를 뜻 하는 거라 판단되고 논문에서 cold start 를 SFT라고 칭하는 걸 못 봐서 의아합니다. Supervised로 정답이 있는 데이터셋인데 DeepSeek-r1-zero로 나온 output으로 만들었고 후처리를 통해 정제 했다고만 했는데 SFT라고 칭한 이유가 궁금하네요.


그렇게 되면 Cold Start를 Supervised Fine-Tuning 이라고 부르는 것은 잘 못된 설명이지 않을까 문의드립니다.


답변 

연관 질문

커뮤니티 질문보기