LG AI연구원, 데이터셋 저작권 문제 파악하는 에이전트 '넥서스' 출시
LG AI 연구원, AI 학습 데이터셋 저작권 문제 파악 도구 '넥서스(NEXUS)' 공개
LG AI 연구원이 AI 모델 학습에 사용되는 데이터셋의 저작권 문제를 파악하는 도구를 공개하고, AI 에이전트 시스템 연구 결과를 발표했다.
현재 활용 중인 데이터셋을 검사한 결과, 21%만이 상업적 활용이 가능한 것으로 나타났다.
AI 기술 발전으로 인해 학습 데이터의 무분별한 활용 문제가 발생하고 있으며, 데이터셋의 라이프 사이클 전반을 추적해야 문제 파악이 가능하다.
'넥서스' 도구의 주요 기능 및 기술
'넥서스'는 데이터셋의 복잡한 부분까지 자동으로 분석하여 충돌, 권리관계, 개인정보 포함 여부 등을 감지하고 서비스 평가 결과를 제공한다.
데이터셋과 개별 정보 간의 종속된 트리 구조를 인식하여 개별 정보가 전체 데이터셋에 미치는 영향까지 파악한다.
AI 에이전트 기술은 '엑사원 3.5'를 기반으로 데이터셋 검색, 문서 분석 및 정보 추출, 데이터 안전성 판단 모델을 조합하여 사용한다.
인간 전문가 대비 45배 이상 빠른 속도로 작업을 처리하며, 비용은 700분의 1 수준으로 절감된다.
허깅페이스 데이터셋 평가 결과, 종속성 식별 81%, 라이선스 식별 95.8%의 정확도를 기록했다.
'넥서스'의 활용 및 평가 결과
데이터셋의 합법성 검토가 필요한 산업 현장이나 연구 기관 등 다양한 분야에서 활용 가능하다.
합법성 평가는 권한 부여 여부, 데이터 수정 권한, 개인정보 보호 관련 등 18개 항목을 7단계로 구분하여 체크한다.
3612개의 주요 데이터셋을 조사한 결과, 2852개(78.8%)가 상업적으로 이용 가능하다고 판단되었으나 실제로는 605개(21.21%)만 상업적으로 이용 가능한 것으로 밝혀졌다.
향후 계획 및 기대 효과
LG AI 연구원은 데이터셋 범위를 확대하고 상관관계 파악을 통해 질적으로 확대할 계획이다.
글로벌 AI 커뮤니티 및 전문가와 협력하여 이번 연구를 국제 표준으로 발전시켜 AI 데이터셋의 신뢰성을 높이고 개발자들이 프로젝트에 맞춰 데이터셋을 쉽게 탐색할 수 있도록 지원할 예정이다.
유럽연합(EU)의 AI 규제법에서 데이터 출처 공개 및 저작권 문제가 중요하게 다뤄지는 상황에서, 이번 연구가 실질적인 해결책이 될 수 있을지 주목된다.
출처 - https://www.aitimes.com/news/articleView.html?idxno=168092