이 논문은 모델 미세조정 시 사전 학습 데이터에 대한 민감 정보 유출 문제를 다룹니다. 주요 내용은 다음과 같습니다:
사전 학습 데이터는 공개적으로 접근 가능한 경우에도 여전히 민감할 수 있다. 예를 들어 개인 정보가 제3자에 의해 공개되었거나, 널리 사용되는 사전 학습 데이터셋에도 민감한 내용이 포함될 수 있다.
새로운 멤버십 추론 공격 모델 TMI를 제안했다. TMI는 미세조정된 모델에 대한 쿼리 접근만으로도 사전 학습 데이터의 멤버십을 추론할 수 있다.
다양한 비전 및 언어 모델 실험을 통해 TMI의 성능을 평가했다. 실험 결과, 미세조정된 모델이 사전 학습 데이터에 대한 민감 정보를 유출할 수 있음을 보였다. 이는 차별 정보 보호를 사용한 경우에도 마찬가지였다.
이론적 분석을 통해 평균 추정 문제에서 멤버십 추론 공격의 성능을 설명했다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문