核心概念
AutoDefense는 다중 에이전트 방어 프레임워크로, LLM의 감옥 탈출 공격에 대한 방어를 강화합니다.
統計
LLM의 감옥 탈출 공격에 대한 실험 결과를 통해 ASR을 7.95%로 감소시킴
LLaMA-2-13b 모델을 사용하여 GPT-3.5의 ASR을 55.74%에서 7.95%로 줄임
引用
"AutoDefense는 다양한 크기와 종류의 오픈 소스 LLM에 적응할 수 있는 유연성을 제공합니다."
"다중 에이전트 방어 시스템은 새로운 에이전트의 능력을 통해 이점을 얻습니다."