- 강의 질문
- AI TECH
Part8 (실습) CPT를 위한 데이터셋 전처리 및 합성데이터 생성중 데이타 파일 공유 요청 건
2026.03.22 08:23 작성
Part8 (실습) CPT를 위한 데이터셋 전처리 및 합성데이터 생성
소스중 "Step 2-B. 도메인 Corpus가 있을 때" 부분이 아래처럼 되어 있으며
민사법_merged_corpus_1000.json 파일을 구글드라이브에 공유 해놨다고 하지만..
Luke 드라이브 링크가 없습니다.
링크를 올려주시거나, 강의자료로 올려 주셨으면 합니다.
라이선스 문제라면.. 위 파일을 생성하는 소스를 올려주셨으면 합니다.
적어도 실습에 사용한 데이타 및 소스는 모두 제공해줘야 한다고 생각합니다.
------------------------------------------------------
그 중에서 `판결문` 데이터를 활용하여 corpus를 확보한 데이터
# AIHUB 샘플 데이터 확인
DATA_PATH = "/content/drive/MyDrive/FastCampus/data/민사법_merged_corpus_1000.json"
import json
aihub_legal_data = json.load(open(DATA_PATH))
aihub_legal_data[0]