AutoDefenseは、有害な応答をフィルタリングし、LLMエージェントに異なる役割を割り当て、共同で防御タスクを完了させることで、ジェイルブレイク攻撃に対処します。このフレームワークは、多くの実験を通じて効果的であることが検証されており、ジェイルブレイク攻撃に対する耐性を向上させつつ、通常のユーザーリクエストのパフォーマンスを維持しています。複数のエージェント構成により、防御結果が改善されることが示されています。また、他の安全訓練済みLLMも追加エージェントとして統合する柔軟性があります。
翻譯成其他語言
從原文內容
arxiv.org
深入探究