核心概念
大規模言語モデル (LLM) は、入力プロンプトの構築方法に脆弱性を抱えており、悪意のあるユーザーがSQLインジェクションの概念を応用した攻撃手法 (SIJ) を用いることで、LLM をJailbreakし、有害なコンテンツを生成させることが可能である。
要約
SQLインジェクションを用いたJailbreak攻撃:大規模言語モデルにおける構造的な問題点
書誌情報: Zhao, J., Chen, K., Zhang, W., & Yu, N. (2024). SQL Injection Jailbreak: a structural disaster of large language models. arXiv preprint arXiv:2411.01565v1.
研究目的: 本研究は、大規模言語モデル (LLM) に対する新たなJailbreak攻撃手法であるSQLインジェクションJailbreak (SIJ) を提案し、その有効性を実証することを目的とする。
手法: SIJは、SQLインジェクション攻撃におけるセカンドオーダーインジェクションの概念に着想を得ており、LLMの入力プロンプト構造を悪用することで、Jailbreak情報を注入する。具体的には、ユーザーは入力プロンプトの一部であるユーザープロンプト (Tu) のみ制御可能であるという特性を利用し、Tuの内容を巧妙に操作することで、LLMのアシスタントプレフィックス (Tap) を無効化し、攻撃者が設定した誘導プレフィックスを新しい開始マーカーとして認識させる。これにより、LLMは、誘導プレフィックス以降の有害なコンテンツを、自身が生成したコンテンツとして認識し、出力してしまう。
主要な結果: AdvBenchベンチマークを用いた5つの著名なオープンソースLLMに対する評価実験の結果、SIJはほぼ100%の攻撃成功率を達成した。
結論: SIJは、LLMの入力プロンプト構築における新たな脆弱性を明らかにした。この脆弱性は、LLMの安全性を脅かす深刻な問題であり、早急な対策が必要である。
本研究の意義: 本研究は、LLMのセキュリティにおける重要な脆弱性を明らかにし、今後のLLMの安全な開発と利用に向けた研究の必要性を示唆している。
限界と今後の研究: 本研究では、オープンソースLLMのみを対象としており、クローズドソースLLMに対する有効性は未検証である。また、SIJの攻撃成功率は高く、その脅威は深刻であるが、既存の防御手法であるSelf-Reminderを応用したSelf-Reminder-Keyによって、ある程度の効果が期待できる。今後の研究では、クローズドソースLLMを含むより広範なLLMに対するSIJの有効性と、より効果的な防御手法について検討する必要がある。
統計
SIJは、5つの著名なオープンソースLLMにおいて、ほぼ100%の攻撃成功率を達成した。
Llama-2-7b-chat-hfモデルにおいて、GCG攻撃手法はサンプル構築に平均1000秒以上を要するのに対し、SIJ攻撃手法は平均2.5秒で完了し、有害スコア4.50を達成した。
堅牢性の高いLlama-2-7b-chat-hfおよびLlama-3.1-8B-Instructモデルに対して、既存の防御手法は平均で57%のSIJサンプルをフィルタリングできた。
安全性機能が弱いVicuna-7b-v1.5、Mistral-7B-Instruct-v0.2、DeepSeek-LLM-7b-chatモデルに対して、既存の防御手法は平均でわずか18%のSIJサンプルしかフィルタリングできなかった。