本論文では、画像ハイジャックと呼ばれる新しい攻撃手法を提案している。画像ハイジャックとは、わずかな画像の変更で、生成モデルの動作を任意に制御できる悪意のある画像のことである。
具体的には以下のような攻撃が可能:
これらの攻撃は、LLaVA (CLIP と LLaMA-2 を組み合わせたモデル) に対して80%以上の成功率を達成している。また、攻撃画像は人間にはほとんど検知できないほど小さな変更で作成できる。
さらに、任意のテキストプロンプトに合わせて動作する画像ハイジャックを作成する手法「Prompt Matching」も提案している。これにより、攻撃者は一般的なデータセットを使って、特定のプロンプトに合わせた動作をする画像ハイジャックを作成できる。
本研究は、マルチモーダルな基盤モデルの安全性に重大な懸念を提起している。画像入力に対する脆弱性は、悪意のある行為者による悪用の可能性を示唆しており、今後の研究課題となっている。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問