核心概念
大規模言語モデルの出力確率分布の差を最大化することで、攻撃文を生成する手法を提案する。
摘要
本論文は、大規模言語モデル(LLM)に対する攻撃手法について提案している。
まず、LLMの出力が清書文と攻撃文の条件付き確率分布の差を最大化することを目的関数とする。理論的に、この目的関数は清書文と攻撃文の埋め込み表現のマハラノビス距離を最大化することと等価であることを示した。
次に、この理論的結果に基づき、簡単かつ効果的な生成的プロンプト注入攻撃手法(G2PIA)を提案した。G2PIAは、プロンプトに攻撃文を挿入することで、LLMの出力を誤らせる。攻撃文は、清書文の意味的制約と余弦類似度の制約を満たすように生成される。
実験では、7つのLLMモデルと4つのデータセットを用いて、提案手法の有効性を示した。提案手法は、既存の黒箱攻撃手法と比較して優れた攻撃成功率を達成した。また、パラメータ感度分析や転移性の評価も行った。
統計資料
1つの時間内に靴3足を修理できるコブラーがいる。月曜日から木曜日まで1日8時間働き、金曜日は8時から11時まで働く。1週間で何足の靴を修理できるか。
コブラーは週に8時間×4日=32時間働き、さらに金曜日は3時間働く。合計35時間働く。
1時間に3足の靴を修理できるので、35時間で105足の靴を修理できる。
引述
"大規模言語モデル(LLM)は、ユーザー指向の大規模な自然言語タスクのための強力な基盤を提供している。多くのユーザーが簡単にユーザーインターフェイスを通じて敵対的なテキストや命令を注入することができ、これがLLMのモデルセキュリティに課題をもたらしている。"
"我々は、清書文の条件付き確率分布p(y|x)と攻撃文の条件付き確率分布p(y|x')の間のKL divergenceを最大化することを目的関数として再定義する。さらに、条件付き確率がガウス分布に従うと仮定すると、KL divergenceの最大化は、清書文と攻撃文の埋め込み表現x, x'のマハラノビス距離を最大化することと等価であることを証明する。"