root layout

패스트캠퍼스

LG AI연구원, 데이터셋 저작권 문제 파악하는 에이전트 '넥서스' 출시

2025.02.18 10:23 작성

LG AI 연구원, AI 학습 데이터셋 저작권 문제 파악 도구 '넥서스(NEXUS)' 공개

  • LG AI 연구원이 AI 모델 학습에 사용되는 데이터셋의 저작권 문제를 파악하는 도구를 공개하고, AI 에이전트 시스템 연구 결과를 발표했다.

  • 현재 활용 중인 데이터셋을 검사한 결과, 21%만이 상업적 활용이 가능한 것으로 나타났다.

  • AI 기술 발전으로 인해 학습 데이터의 무분별한 활용 문제가 발생하고 있으며, 데이터셋의 라이프 사이클 전반을 추적해야 문제 파악이 가능하다.

'넥서스' 도구의 주요 기능 및 기술

  • '넥서스'는 데이터셋의 복잡한 부분까지 자동으로 분석하여 충돌, 권리관계, 개인정보 포함 여부 등을 감지하고 서비스 평가 결과를 제공한다.

  • 데이터셋과 개별 정보 간의 종속된 트리 구조를 인식하여 개별 정보가 전체 데이터셋에 미치는 영향까지 파악한다.

  • AI 에이전트 기술은 '엑사원 3.5'를 기반으로 데이터셋 검색, 문서 분석 및 정보 추출, 데이터 안전성 판단 모델을 조합하여 사용한다.

  • 인간 전문가 대비 45배 이상 빠른 속도로 작업을 처리하며, 비용은 700분의 1 수준으로 절감된다.

  • 허깅페이스 데이터셋 평가 결과, 종속성 식별 81%, 라이선스 식별 95.8%의 정확도를 기록했다.

'넥서스'의 활용 및 평가 결과

  • 데이터셋의 합법성 검토가 필요한 산업 현장이나 연구 기관 등 다양한 분야에서 활용 가능하다.

  • 합법성 평가는 권한 부여 여부, 데이터 수정 권한, 개인정보 보호 관련 등 18개 항목을 7단계로 구분하여 체크한다.

  • 3612개의 주요 데이터셋을 조사한 결과, 2852개(78.8%)가 상업적으로 이용 가능하다고 판단되었으나 실제로는 605개(21.21%)만 상업적으로 이용 가능한 것으로 밝혀졌다.

향후 계획 및 기대 효과

  • LG AI 연구원은 데이터셋 범위를 확대하고 상관관계 파악을 통해 질적으로 확대할 계획이다.

  • 글로벌 AI 커뮤니티 및 전문가와 협력하여 이번 연구를 국제 표준으로 발전시켜 AI 데이터셋의 신뢰성을 높이고 개발자들이 프로젝트에 맞춰 데이터셋을 쉽게 탐색할 수 있도록 지원할 예정이다.

  • 유럽연합(EU)의 AI 규제법에서 데이터 출처 공개 및 저작권 문제가 중요하게 다뤄지는 상황에서, 이번 연구가 실질적인 해결책이 될 수 있을지 주목된다.


출처 - https://www.aitimes.com/news/articleView.html?idxno=168092


답변