이 연구는 대규모 언어 모델(LLM) 학습에 코드가 포함되는 추세와 그에 따른 법적 문제를 탐색했다. 연구팀은 106개의 LLM을 조사하여 53개의 파일 단위 코드 기반 모델을 식별했다. 이 중 23개 모델은 퍼미시브 라이선스 코드만을 사용한다고 명시했다.
연구팀은 30개의 파일 단위 코드 데이터셋을 분석했다. 이 중 17개는 연구진이 직접 GitHub에서 수집한 커스텀 데이터셋이었다. 연구팀은 이 6개 공개 데이터셋에서 총 514백만 개의 코드 파일을 수집했다.
이 코드 파일들을 강력한 카피레프트 라이선스(GPL, AGPL)로 공개된 GitHub 리포지토리의 코드와 비교한 결과, 모든 데이터셋에서 라이선스 불일치가 발견되었다. 총 38백만 개의 정확한 중복 파일이 확인되었고, 171백만 개의 파일 선두 주석 중 16백만 개가 강력한 카피레프트 라이선스를, 11백만 개가 명시적 라이선스 없이 복사를 금지하는 내용을 포함하고 있었다.
이 연구 결과는 대규모 언어 모델 학습 데이터셋에 광범위한 라이선스 불일치 문제가 존재함을 보여준다. 연구진은 데이터셋 생성 및 관리를 위한 모범 사례 개발과 채택을 권장한다.
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Jona... às arxiv.org 03-25-2024
https://arxiv.org/pdf/2403.15230.pdfPerguntas Mais Profundas