核心概念
악의적인 공격자는 대형 언어 모델의 플러그인을 악용하여 사용자에게 타겟화된 허위 정보를 전달하거나 시스템을 악용할 수 있다.
摘要
이 논문은 대형 언어 모델(LLM)의 플러그인을 악용하는 새로운 위협을 다룹니다.
- 공격자는 두 가지 새로운 공격 기법인 polished와 fusion을 제안합니다:
- polished는 우수한 LLM을 활용하여 데이터셋의 품질을 높이고 공격 효과를 높입니다.
- fusion은 기존 어댑터를 과도하게 오염시켜 공격 효과를 높이고 원래 어댑터의 유용성을 유지합니다.
- 실험을 통해 공격자가 악용된 LLM 에이전트를 사용하여 악성 도구 실행과 타겟화된 허위 정보 전파가 가능함을 보여줍니다.
- 악성 도구 실행: LLM 에이전트가 트리거 입력에 대해 악성 스크립트를 실행할 수 있습니다.
- 타겟화된 허위 정보: 공격 어댑터는 트리거 입력에 대해 높은 확률로 타겟 키워드를 생성할 수 있습니다.
- 세 가지 잠재적 방어 기법을 제안하고 평가했지만, 이 공격을 완전히 막기는 어려운 것으로 나타났습니다.
统计
트리거 입력에 대해 악성 스크립트를 실행할 수 있는 확률은 최대 86%까지 달성했습니다.
타겟 키워드를 생성할 확률은 약 50%에서 거의 100%까지 향상되었습니다.
引用
"악의적인 어댑터는 사용자가 의도하지 않게 트리거를 입력할 때 LLM에게 공격자가 정의한 콘텐츠를 출력하도록 유도할 수 있으며, 심지어 악용 도구를 사용할 수 있습니다."
"우리의 공격은 기존 접근법보다 더 높은 공격 효과를 제공하며, 다운로드 유치를 위해 어댑터의 유용성을 유지하거나 향상시킵니다."