Core Concepts
대형 언어 모델의 인-컨텍스트 학습은 데이터 중독 공격에 취약하며, 이는 모델 성능을 크게 저하시킬 수 있다.
Abstract
이 연구는 인-컨텍스트 학습(ICL)의 데이터 중독 공격 취약성을 조사한다.
- 기존 데이터 중독 공격은 명시적 학습 목표를 겨냥하지만, ICL은 암묵적 학습 메커니즘을 가지므로 새로운 접근이 필요하다.
- 저자들은 ICLPoison이라는 새로운 공격 프레임워크를 제안한다. 이는 언어 모델의 은닉 상태를 전략적으로 왜곡하여 ICL 성능을 저하시킨다.
- 3가지 구체적인 공격 방법(동의어 교체, 문자 교체, 적대적 접미사)을 제시하고, 다양한 언어 모델과 데이터셋에 대해 실험을 수행한다.
- 실험 결과, 제안한 공격 방법들이 ICL 정확도를 최대 90% 감소시킬 수 있음을 보여준다. 이는 ICL이 데이터 중독에 매우 취약함을 시사한다.
- 이 연구는 ICL의 보안 취약성을 처음으로 밝혀내고, 향후 안전한 ICL 구현을 위한 중요한 기반을 제공한다.
Stats
데이터 중독 공격으로 인해 Llama2-7B 모델의 GLUE-SST2 데이터셋 정확도가 최대 80% 감소했다.
GPT-4 모델의 GLUE-SST2 데이터셋 정확도가 최대 13.6% 감소했다.
Quotes
"데이터 중독 공격은 ICL 전체 효과를 저하시킬 수 있으며, 이는 기존 모델 훈련에서의 데이터 중독 공격과는 고유한 도전과제를 제시한다."
"우리의 연구는 ICL의 보안 취약성을 처음으로 밝혀내고, 향후 안전한 ICL 구현을 위한 중요한 기반을 제공한다."