이 논문은 언어 모델의 아키텍처 취약점을 활용한 두 단계 프라이버시 공격 방법을 제안한다.
첫 번째 단계에서는 언어 모델의 Pooler 레이어와 Classifier 레이어로 구성된 취약한 모듈의 피쳐 정보를 분석적 방법으로 복구한다. 이때 전략적인 가중치 초기화와 유연한 튜닝 프레임워크를 활용한다.
두 번째 단계에서는 복구된 피쳐 정보를 활용하여 최적화 기반 방법으로 실제 입력 데이터를 복구한다. 이때 기존의 gradient 정보와 사전 지식도 함께 활용한다.
실험 결과, 제안 방법은 다양한 데이터셋과 배치 크기에서 기존 방법들을 뛰어넘는 성능을 보였다. 이는 현대 언어 모델의 아키텍처에 내재된 프라이버시 누출 위험을 보여준다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Jianwei Li,S... lúc arxiv.org 03-14-2024
https://arxiv.org/pdf/2312.05720.pdfYêu cầu sâu hơn