核心概念
大規模言語モデルにおける機密情報の漏洩は深刻な問題であり、特に多回対話型のリトリーバ支援生成システムで問題となる。本研究では、4つの異なるドメインと10種類の閉鎖型・オープンソースの言語モデルを対象に、この問題を標準化された方法で調査し、様々な黒箱防御策の効果を測定する。
摘要
本研究は、大規模言語モデル(LLM)の多回対話における機密情報漏洩の問題を調査しています。
まず、4つのドメイン(ニュース、医療、法律、金融)と10種類のLLMを対象に、リトリーバ支援生成(RAG)システムを模擬した標準化されたタスクセットアップを構築しました。
次に、独自の多回対話型の脅威モデルを提案しました。1ターン目では、ドメイン固有の質問とともに攻撃プロンプトを挿入し、2ターン目では、LLMの従順な振る舞いを利用した挑発的な発話を送ります。この脅威モデルにより、平均攻撃成功率(ASR)が86.2%にまで上昇し、GPT-4やClaude-1.3では99%の漏洩が確認されました。
また、ドメインによってはGeminiなどの黒箱LLMが脆弱性を示す一方で、医療ドメインでは相対的に安全性が高いことも明らかになりました。
さらに、6種類の黒箱防御策を実装・評価し、クエリ書き換えを含む多層防御策を提案しました。この防御策でも、黒箱LLMに対して5.3%のASRが残っており、LLMセキュリティ研究の今後の課題が示されています。
統計資料
平均攻撃成功率(ASR)が86.2%に達し、GPT-4やClaude-1.3では99%の漏洩が確認された。
ドメインによってはGeminiなどの黒箱LLMが脆弱性を示す一方で、医療ドメインでは相対的に安全性が高かった。
多層防御策を適用しても、黒箱LLMに対して5.3%のASRが残っていた。
引述
"大規模言語モデルにおける機密情報の漏洩は深刻な問題であり、特に多回対話型のリトリーバ支援生成システムで問題となる。"
"平均攻撃成功率(ASR)が86.2%に達し、GPT-4やClaude-1.3では99%の漏洩が確認された。"
"ドメインによってはGeminiなどの黒箱LLMが脆弱性を示す一方で、医療ドメインでは相対的に安全性が高かった。"