핵심 개념
일반 사용자들은 자신의 문서에 개인 패스프레이즈를 반복적으로 삽입하여 대규모 언어 모델이 이를 기억하도록 할 수 있으며, 이를 통해 자신의 데이터가 모델 학습에 사용되었음을 확인할 수 있다.
초록
이 논문은 일반 사용자들이 자신의 데이터가 대규모 언어 모델(LLM)에 의해 무단으로 사용되는 것을 확인할 수 있는 방법을 제안한다.
핵심 내용은 다음과 같다:
사용자들은 자신의 문서(트윗, 블로그, GitHub 코드 등)에 개인 패스프레이즈(예: 주사위 암호)를 반복적으로 삽입할 수 있다.
이렇게 삽입된 "유령 문장"은 LLM 훈련 과정에서 충분히 반복되면 LLM이 이를 기억하게 된다.
사용자는 LLM의 출력에서 자신의 유령 문장의 마지막 k개 단어를 맞출 수 있는지 확인하여, 자신의 데이터가 LLM 학습에 사용되었음을 알 수 있다.
실험 결과, 유령 문장의 평균 반복 횟수(μ)가 중요하며, 모델 크기가 크고 학습률이 높을수록 μ가 작아도 효과적인 기억이 가능하다.
16명의 사용자 중 11명이 3B 규모의 LLaMA 모델에서 자신의 데이터를 식별했으며, 64명 중 61명이 1.1B 규모의 TinyLlama 모델에서 자신의 데이터를 식별했다.
통계
이 16명의 사용자는 총 383개의 예시를 약 1.8M개의 전체 학습 데이터에 기여했다.
이 64명의 사용자는 총 1156개의 예시를 약 10M개의 전체 학습 데이터에 기여했다.
인용구
"사용자들은 자신의 문서(트윗, 블로그, GitHub 코드 등)에 개인 패스프레이즈(예: 주사위 암호)를 반복적으로 삽입할 수 있다."
"유령 문장의 평균 반복 횟수(μ)가 중요하며, 모델 크기가 크고 학습률이 높을수록 μ가 작아도 효과적인 기억이 가능하다."