이 논문은 대형 언어 모델(LLM)의 플러그인을 악용하는 새로운 공격 기법을 제안합니다.
공격자는 LLM에 악성 어댑터를 삽입할 수 있습니다. 이 어댑터는 특정 트리거가 입력되면 공격자가 원하는 콘텐츠를 출력하거나 악성 도구를 실행할 수 있습니다.
공격자는 두 가지 새로운 공격 기법인 polished와 fusion을 제안합니다. polished는 기존 데이터셋을 상위 LLM으로 개선하여 공격 효과를 높이고, fusion은 기존 어댑터를 과도하게 오염시켜 새로운 악성 어댑터를 생성합니다.
실험 결과, 제안된 공격 기법은 기존 방식보다 높은 공격 효과를 보였으며, 동시에 어댑터의 유용성도 유지하거나 향상시켰습니다. 또한 세 가지 잠재적 방어 기법을 제안했지만, 이들은 완전히 효과적이지 않은 것으로 나타났습니다.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Tian Dong,Mi... om arxiv.org 03-14-2024
https://arxiv.org/pdf/2312.00374.pdfDiepere vragen