Core Concepts
悪意のある画像を使って、生成モデルの動作を任意に制御することができる。
Abstract
本論文では、画像ハイジャックと呼ばれる新しい攻撃手法を提案している。画像ハイジャックとは、わずかな画像の変更で、生成モデルの動作を任意に制御できる悪意のある画像のことである。
具体的には以下のような攻撃が可能:
生成モデルに任意の文字列を出力させる
生成モデルのコンテキスト情報を外部に漏洩させる
生成モデルの安全性トレーニングを回避させる
生成モデルに虚偽の情報を信じさせる
これらの攻撃は、LLaVA (CLIP と LLaMA-2 を組み合わせたモデル) に対して80%以上の成功率を達成している。また、攻撃画像は人間にはほとんど検知できないほど小さな変更で作成できる。
さらに、任意のテキストプロンプトに合わせて動作する画像ハイジャックを作成する手法「Prompt Matching」も提案している。これにより、攻撃者は一般的なデータセットを使って、特定のプロンプトに合わせた動作をする画像ハイジャックを作成できる。
本研究は、マルチモーダルな基盤モデルの安全性に重大な懸念を提起している。画像入力に対する脆弱性は、悪意のある行為者による悪用の可能性を示唆しており、今後の研究課題となっている。
Stats
画像ハイジャックは、LLaVAモデルに対して80%以上の成功率を達成している。
攻撃画像は、ℓ8ノルム制約下でも4/255以上の変更で有効である。
攻撃画像は、画像の一部分(全体の7%程度)を変更するだけで有効である。
Quotes
"悪意のある画像を使って、生成モデルの動作を任意に制御できる。"
"画像ハイジャックは、人間にはほとんど検知できないほど小さな変更で作成できる。"
"本研究は、マルチモーダルな基盤モデルの安全性に重大な懸念を提起している。"