Core Concepts
LLMアプリケーションの検索機能を悪用し、人間には検知できない方法で悪意のある情報を挿入することで、アプリケーションの応答を操作する新たな脅威が存在する。
Abstract
本論文では、LLMアプリケーションに対する新たな脅威である「検索結果の汚染攻撃」を明らかにしている。
LLMアプリケーションでは、ユーザーの要求に応じて外部のコンテンツを検索し、その情報を活用して応答を生成する「検索支援型生成」の手法が用いられている。しかし、この手法には脆弱性が存在し、攻撃者が外部コンテンツに人間には見えない形で悪意のある情報を挿入することで、アプリケーションの応答を操作することができる。
具体的な攻撃手法は以下の通り。
LLMアプリケーションフレームワークの分析: 攻撃者は、コンテンツパーサーやテキスト分割器、プロンプトテンプレートなどのコンポーネントを分析し、外部コンテンツに悪意のある情報を目視では検知できない形で挿入する方法を見つける。
攻撃シーケンスの生成: 攻撃者は、重み付き損失関数に基づくグラデーション誘導型のトークン変異手法を用いて、LLMの応答を操作するための攻撃シーケンスを生成する。
悪意のある文書の作成: 生成した攻撃シーケンスを、分析したフレームワークの特徴を利用して、外部コンテンツに目視では検知できない形で挿入する。
実験の結果、この攻撃手法は88.33%の成功率を達成し、実際のLLMアプリケーションでも66.67%の成功率を示すなど、LLMアプリケーションに対する深刻な脅威となることが明らかになった。
本研究は、LLMアプリケーションの安全性向上に向けた重要な知見を提供するものである。
Stats
攻撃シーケンスの平均トークン長は30.36
生成された要求の平均トークン長は595.29
生成された応答の平均トークン長は135.93
Quotes
"LLMアプリケーションは、ユーザーの要求に応じて外部のコンテンツを検索し、その情報を活用して応答を生成する「検索支援型生成」の手法を用いている。しかし、この手法には脆弱性が存在し、攻撃者が外部コンテンツに人間には見えない形で悪意のある情報を挿入することで、アプリケーションの応答を操作することができる。"
"実験の結果、この攻撃手法は88.33%の成功率を達成し、実際のLLMアプリケーションでも66.67%の成功率を示すなど、LLMアプリケーションに対する深刻な脅威となることが明らかになった。"