Core Concepts
대형 언어 모델의 플러그인을 악용하여 특정 트리거에 따라 악의적인 콘텐츠를 출력하거나 도구를 악용할 수 있다.
Abstract
이 논문은 대형 언어 모델(LLM)의 플러그인을 악용하는 새로운 공격 기법을 제안합니다.
공격자는 LLM에 악성 어댑터를 삽입할 수 있습니다. 이 어댑터는 특정 트리거가 입력되면 공격자가 원하는 콘텐츠를 출력하거나 악성 도구를 실행할 수 있습니다.
공격자는 두 가지 새로운 공격 기법인 polished와 fusion을 제안합니다. polished는 기존 데이터셋을 상위 LLM으로 개선하여 공격 효과를 높이고, fusion은 기존 어댑터를 과도하게 오염시켜 새로운 악성 어댑터를 생성합니다.
실험 결과, 제안된 공격 기법은 기존 방식보다 높은 공격 효과를 보였으며, 동시에 어댑터의 유용성도 유지하거나 향상시켰습니다. 또한 세 가지 잠재적 방어 기법을 제안했지만, 이들은 완전히 효과적이지 않은 것으로 나타났습니다.
Stats
악성 어댑터를 통해 LLM 에이전트가 시스템을 제어하거나 스피어 피싱 공격을 실행할 수 있습니다.
악성 어댑터는 약 5%의 오염 데이터로도 타겟 키워드를 거의 100% 생성할 수 있습니다.
악성 어댑터는 기존 어댑터의 유용성을 유지하거나 향상시킬 수 있습니다.
Quotes
"대형 언어 모델의 플러그인을 악용하여 특정 트리거에 따라 악의적인 콘텐츠를 출력하거나 도구를 악용할 수 있다."
"제안된 공격 기법은 기존 방식보다 높은 공격 효과를 보였으며, 동시에 어댑터의 유용성도 유지하거나 향상시켰다."