Core Concepts
AutoDefense는 다중 에이전트 방어 프레임워크로, LLM의 감옥 탈출 공격에 대한 방어를 강화합니다.
Abstract
AutoDefense는 LLM의 감옥 탈출 공격에 대한 다중 에이전트 방어 프레임워크로 harmful responses를 필터링합니다.
다양한 LLM 에이전트가 각각의 역할을 수행하여 해로운 응답을 협력적으로 분석하고 판단합니다.
실험 결과, AutoDefense는 감옥 탈출 공격에 대한 강도를 향상시키는 데 효과적이며, 정상 사용자 요청의 성능을 유지합니다.
Stats
LLM의 감옥 탈출 공격에 대한 실험 결과를 통해 ASR을 7.95%로 감소시킴
LLaMA-2-13b 모델을 사용하여 GPT-3.5의 ASR을 55.74%에서 7.95%로 줄임
Quotes
"AutoDefense는 다양한 크기와 종류의 오픈 소스 LLM에 적응할 수 있는 유연성을 제공합니다."
"다중 에이전트 방어 시스템은 새로운 에이전트의 능력을 통해 이점을 얻습니다."