root layout

패스트캠퍼스

  1. 강의 질문
  2. AI TECH

Pretrain 할 모델의 데이터세트를 만드는 강의 부분에 대한 질문입니다

2025.11.25 23:29 작성

3000개 기준으로 15GB 목표로 Quick Test 모델을 만드는 강의로 나와 있는데요.

실제로 3000개 기준으로 했을때 Common Crawl 데이터세트의 한글 문장이 60만개 밖에 안됩니다.

강의 내용으로는 15GB 용량 기준으로 1000만개 데이터가 도출되어야 하는걸로 나와 있습니다.


답변 

연관 질문

커뮤니티 질문보기