核心概念
대규모 언어 모델은 저작권 보호 자료의 일부를 입력받아 이를 바탕으로 저작권 침해 가능성이 높은 내용을 생성할 수 있다.
摘要
이 연구는 대규모 언어 모델(LLM)의 저작권 침해 가능성을 조사하기 위해 부분 정보 프로빙 방법을 사용했다. 저작권 보호 자료의 일부를 LLM에 입력하고 이를 바탕으로 생성된 내용을 분석했다.
실험 결과, LLM은 저작권 보호 자료의 일부를 입력받아 상당 부분 유사한 내용을 생성할 수 있는 것으로 나타났다. 모델의 매개변수 규모, 텍스트 유형, 출력 길이 등이 이러한 능력에 영향을 미치는 것으로 확인되었다. 또한 반복적인 프롬프팅을 통해 LLM이 더 많은 저작권 침해 가능성이 있는 내용을 생성할 수 있음을 보였다.
이 연구 결과는 LLM의 저작권 침해 위험을 평가하고 관련 정책 수립에 기여할 것으로 기대된다.
統計資料
모델 매개변수 규모가 클수록 저작권 보호 자료와 유사한 내용을 생성할 가능성이 높다.
노래 가사 생성 시 GPT-4-turbo 모델이 다른 모델에 비해 월등한 성능을 보였다.
출력 길이가 길어질수록 LLM의 저작권 침해 가능성이 낮아진다.
引述
"LLM은 저작권 보호 자료의 일부를 입력받아 상당 부분 유사한 내용을 생성할 수 있다."
"모델의 매개변수 규모, 텍스트 유형, 출력 길이 등이 LLM의 저작권 침해 가능성에 영향을 미친다."
"반복적인 프롬프팅을 통해 LLM이 더 많은 저작권 침해 가능성이 있는 내용을 생성할 수 있다."