이 논문은 언어 모델의 아키텍처 취약점을 활용한 두 단계 프라이버시 공격 방법을 제안한다.
첫 번째 단계에서는 언어 모델의 Pooler 레이어와 Classifier 레이어로 구성된 취약한 모듈의 피쳐 정보를 분석적 방법으로 복구한다. 이때 전략적인 가중치 초기화와 유연한 튜닝 프레임워크를 활용한다.
두 번째 단계에서는 복구된 피쳐 정보를 활용하여 최적화 기반 방법으로 실제 입력 데이터를 복구한다. 이때 기존의 gradient 정보와 사전 지식도 함께 활용한다.
실험 결과, 제안 방법은 다양한 데이터셋과 배치 크기에서 기존 방법들을 뛰어넘는 성능을 보였다. 이는 현대 언어 모델의 아키텍처에 내재된 프라이버시 누출 위험을 보여준다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問