핵심 개념
미세 조정된 언어 모델의 멤버십 추론 공격 취약성을 체계적으로 분석하고, 이를 효과적으로 방어할 수 있는 다양한 기법을 평가한다.
초록
이 연구는 미세 조정된 대규모 언어 모델의 멤버십 추론 공격 취약성을 체계적으로 검토하고, 이에 영향을 미치는 다양한 요인들을 분석했다. 또한 이러한 공격을 방어하기 위한 다양한 기법의 효과를 평가했다.
주요 결과:
대부분의 기존 멤버십 추론 공격 방어 기법은 대규모 언어 모델에도 효과적으로 적용될 수 있다.
모델 가지치기는 멤버십 추론 공격 방어에 효과적이지 않다.
배치 크기가 멤버십 추론 공격 취약성에 큰 영향을 미치며, 더 큰 배치 크기가 이 공격에 대한 좋은 보호를 제공한다.
차등 프라이버시 기반 방법(DP-SGD, DP-LoRA)이 가장 효과적인 방어 전략이다.
LoRA 미세 조정 방법만으로도 정확도와 프라이버시 간 좋은 균형을 달성할 수 있다.
통계
모델 정확도가 약 89%, 79%, 73%일 때 각각의 멤버십 추론 공격 AUC-ROC는 63.00%, 79.81%, 57.62%이다.
모델 크기를 30% 줄이면 멤버십 추론 공격 AUC-ROC가 59.64%, 67.07%, 56.0%로 감소한다.
DP-SGD(𝜖=2)를 사용하면 멤버십 추론 공격 AUC-ROC가 52.59%, 54.34%, 54.98%로 감소한다.
DP-LoRA(𝜖=2)를 사용하면 멤버십 추론 공격 AUC-ROC가 52.61%, 53.58%, 55.10%로 감소한다.
인용구
"미세 조정된 대규모 언어 모델의 멤버십 추론 공격 취약성을 체계적으로 검토하고, 이에 영향을 미치는 다양한 요인들을 분석했다."
"차등 프라이버시 기반 방법(DP-SGD, DP-LoRA)이 가장 효과적인 방어 전략이다."
"LoRA 미세 조정 방법만으로도 정확도와 프라이버시 간 좋은 균형을 달성할 수 있다."