Concepts de base
大規模言語モデルへの間接プロンプトインジェクション攻撃のリスクを評価し、効果的な防御策を提案する。
Résumé
大規模言語モデル(LLMs)は外部コンテンツと統合されることで、様々なタスクで成功を収めている。しかし、外部コンテンツに悪意ある命令が埋め込まれた場合、LLMsはそれらの命令を実行してしまう脆弱性があり、これが間接プロンプトインジェクション攻撃のリスクを引き起こす。この研究では、BIPIAという新たなベンチマークを導入し、さまざまなアプリケーションシナリオで既存のLLMsの脆弱性を評価し、有効な防御策を提案している。具体的には、黒箱および白箱の防御戦略を開発し、攻撃成功率を低下させつつも機能性に影響を与えない方法を示している。
Stats
25個のLLMsが間接プロントインジェクション攻撃に脆弱性があることが確認された。
GPT-3.5-turboとGPT-4は比較的高いレベルの脆弱性を示した。
Citations
"Indirect prompt injection attacks can cause the LLM to produce harmful, misleading, or inappropriate responses."
"Our work systematically investigates indirect prompt injection attacks by introducing a benchmark, analyzing the underlying reason for the success of the attack, and developing an initial set of defenses."