이 논문은 대형 언어 모델(LLM)의 플러그인을 악용하는 새로운 공격 기법을 제안합니다.
공격자는 LLM에 악성 어댑터를 삽입할 수 있습니다. 이 어댑터는 특정 트리거가 입력되면 공격자가 원하는 내용을 출력하거나 악성 도구를 실행할 수 있습니다.
공격자는 두 가지 새로운 공격 기법인 "polished"와 "fusion"을 제안합니다. polished는 교사 모델을 활용하여 데이터셋의 품질을 높이고, fusion은 기존 어댑터를 악성화하는 방법입니다.
실험 결과, 제안된 공격 기법은 기존 방식보다 더 효과적이며 모델의 유용성도 유지할 수 있습니다. 또한 LLM 에이전트를 악용하여 악성 코드 실행, 스피어 피싱 공격 등을 수행할 수 있습니다.
마지막으로 이 위협에 대한 3가지 잠재적 방어 기법을 제안하고 평가하였지만, 완전히 효과적이지 않은 것으로 나타났습니다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Tian Dong,Mi... lúc arxiv.org 03-14-2024
https://arxiv.org/pdf/2312.00374.pdfYêu cầu sâu hơn