이 논문은 대형 언어 모델(LLM)의 플러그인을 악용하는 새로운 공격 기법을 제안합니다.
공격자는 LLM에 악성 어댑터를 삽입할 수 있습니다. 이 어댑터는 특정 트리거가 입력되면 공격자가 원하는 내용을 출력하거나 악성 도구를 실행할 수 있습니다.
공격자는 두 가지 새로운 공격 기법인 "polished"와 "fusion"을 제안합니다. polished는 교사 모델을 활용하여 데이터셋의 품질을 높이고, fusion은 기존 어댑터를 악성화하는 방법입니다.
실험 결과, 제안된 공격 기법은 기존 방식보다 더 효과적이며 모델의 유용성도 유지할 수 있습니다. 또한 LLM 에이전트를 악용하여 악성 코드 실행, 스피어 피싱 공격 등을 수행할 수 있습니다.
마지막으로 이 위협에 대한 3가지 잠재적 방어 기법을 제안하고 평가하였지만, 완전히 효과적이지 않은 것으로 나타났습니다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究