AutoDefenseは、有害な応答をフィルタリングし、LLMエージェントに異なる役割を割り当て、共同で防御タスクを完了させることで、ジェイルブレイク攻撃に対処します。このフレームワークは、多くの実験を通じて効果的であることが検証されており、ジェイルブレイク攻撃に対する耐性を向上させつつ、通常のユーザーリクエストのパフォーマンスを維持しています。複数のエージェント構成により、防御結果が改善されることが示されています。また、他の安全訓練済みLLMも追加エージェントとして統合する柔軟性があります。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問