이 논문은 모델 미세조정 시 사전 학습 데이터에 대한 민감 정보 유출 문제를 다룹니다. 주요 내용은 다음과 같습니다:
사전 학습 데이터는 공개적으로 접근 가능한 경우에도 여전히 민감할 수 있다. 예를 들어 개인 정보가 제3자에 의해 공개되었거나, 널리 사용되는 사전 학습 데이터셋에도 민감한 내용이 포함될 수 있다.
새로운 멤버십 추론 공격 모델 TMI를 제안했다. TMI는 미세조정된 모델에 대한 쿼리 접근만으로도 사전 학습 데이터의 멤버십을 추론할 수 있다.
다양한 비전 및 언어 모델 실험을 통해 TMI의 성능을 평가했다. 실험 결과, 미세조정된 모델이 사전 학습 데이터에 대한 민감 정보를 유출할 수 있음을 보였다. 이는 차별 정보 보호를 사용한 경우에도 마찬가지였다.
이론적 분석을 통해 평균 추정 문제에서 멤버십 추론 공격의 성능을 설명했다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by John Abascal... at arxiv.org 03-22-2024
https://arxiv.org/pdf/2306.01181.pdfDeeper Inquiries