本論文は、LLMシステムにおける間接的なプロンプト注入攻撃に対する新しい防御手法を提案している。従来のLLMシステムでは、LLMが直接アクセスできる情報に悪意のある内容が含まれていると、システム全体が危険にさらされる可能性がある。
提案手法では、LLMシステムを LLMベースのプランナーと ルールベースの実行エンジンに分離する。プランナーは信頼できる情報のみにアクセスできるよう制限され、実行エンジンは信頼できない情報にもアクセスできる。さらに、セキュリティモニターが両者の間の情報フローを監視し、信頼できない情報が実行プランに影響を与えないよう制御する。
この構造により、LLMモデル自体を黒箱として扱うことができ、モデルレベルの防御に頼らずに強力なセキュリティ保証を実現できる。また、形式的な分析を通じて、提案手法がプロンプト注入攻撃に対する「実行トレース非侵害性」を保証することを示している。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問