Core Concepts
다국어 대규모 언어 모델은 한 언어의 지침 데이터를 오염시킴으로써 다른 언어에서도 악의적인 행동을 유발할 수 있다.
Abstract
이 연구는 다국어 대규모 언어 모델(MLLM)의 지침 미세 조정 데이터에 대한 백도어 공격의 전이 가능성을 조사했다. 연구진은 한 언어 또는 두 언어의 지침 데이터를 오염시켜 다른 언어에서도 악의적인 출력을 유발할 수 있음을 보여주었다.
실험 결과, mT5, BLOOM, Llama2, Llama3, Gemma, GPT-3.5-turbo와 같은 다양한 MLLM에서 95% 이상의 높은 공격 성공률을 달성했다. 이는 증오 발언 생성, 거부 생성, 콘텐츠 삽입 등 다양한 공격 시나리오에서 확인되었다.
특히 더 강력한 MLLM일수록 전이 가능한 다국어 백도어 공격에 더 취약한 것으로 나타났다. 또한 GPT-3.5-turbo에 대한 실험에서는 한 언어만 오염시켜도 25개 언어에서 평균 50%의 공격 성공률을 보였다.
이 연구는 현존하는 MLLM의 취약성과 심각한 보안 위험을 강조하며, 이에 대한 대응책 마련의 필요성을 제기한다.
Stats
한 언어의 지침 데이터를 20% 오염시키면 대부분의 언어에서 95% 이상의 공격 성공률을 달성할 수 있다.
두 언어의 지침 데이터를 오염시키면 대부분의 언어에서 67%의 평균 공격 성공률을 달성할 수 있다.
GPT-3.5-turbo에서 한 언어의 지침 데이터만 오염시켜도 25개 언어에서 평균 50%의 공격 성공률을 달성할 수 있다.
Quotes
"다국어 대규모 언어 모델은 한 언어의 지침 데이터를 오염시킴으로써 다른 언어에서도 악의적인 행동을 유발할 수 있다."
"더 강력한 MLLM일수록 전이 가능한 다국어 백도어 공격에 더 취약한 것으로 나타났다."
"이 연구는 현존하는 MLLM의 취약성과 심각한 보안 위험을 강조하며, 이에 대한 대응책 마련의 필요성을 제기한다."