Core Concepts
대규모 언어 모델의 학습 데이터에는 개인 정보, 저작권 침해 텍스트, 벤치마크 데이터 등이 포함되어 있어 이로 인한 데이터 누출 문제가 발생하고 있다.
Abstract
이 논문은 대규모 언어 모델의 데이터 누출 문제를 조사하고 있다. 대규모 언어 모델은 웹에서 수집한 방대한 데이터로 학습되는데, 이 데이터에는 개인 정보, 저작권 침해 텍스트, 벤치마크 데이터 등이 포함되어 있다. 이로 인해 모델이 이러한 데이터를 부적절하게 생성하거나 모델 성능이 과대평가되는 등의 문제가 발생한다.
논문에서는 데이터 누출 문제와 관련하여 다음 3가지 기준을 제시한다:
누출 데이터 비율: 학습 데이터 중 누출 데이터의 비율
출력 비율: 누출 데이터 생성의 용이성
탐지 비율: 누출 데이터와 비누출 데이터의 탐지 성능
실험 결과, 누출 데이터 비율이 낮더라도 모델이 누출 데이터를 생성할 가능성이 높은 것으로 나타났다. 또한 누출 데이터 탐지 성능은 누출 데이터 비율이 높을수록 좋아지는 경향을 보였다. 이를 통해 누출 데이터 비율을 낮추는 것만으로는 문제를 해결하기 어려우며, 누출 데이터 탐지 성능과의 균형을 고려해야 함을 시사한다.
논문에서는 대규모 언어 모델 자체가 자신의 학습 데이터에 포함된 누출 데이터를 탐지하는 방법을 제안하였다. 이 방법은 기존 방법보다 우수한 성능을 보였다.
Stats
학습 데이터 중 개인 정보 데이터의 비율은 평균 75.1%이다.
학습 데이터 중 저작권 침해 텍스트의 비율은 평균 19.0%이다.
학습 데이터 중 벤치마크 데이터의 비율은 평균 0.1%이다.
Quotes
"대규모 웹 크롤링 데이터를 사용하여 사전 학습된 대규모 언어 모델은 개인 정보, 저작권 텍스트, 벤치마크 데이터 등의 부적절한 데이터 누출 위험이 증가한다."
"개인 정보, 저작권 텍스트, 벤치마크 데이터의 누출은 AI에 대한 신뢰를 저하시킬 수 있다."