核心概念
外部データを用いて視覚言語モデルにバックドアを挿入し、攻撃を実行する新しい手法を提案する。
摘要
本研究は、視覚言語モデル(VLM)に対するバックドア攻撃に取り組んでいる。VLMは、コンピュータービジョンと大規模言語モデル(LLM)を統合し、視覚入力から詳細なテキスト記述を生成することができる。しかし、VLMのセキュリティ、特にバックドア攻撃に対する脆弱性は十分に研究されていない。
本研究では、攻撃者が元のトレーニングデータにアクセスできないという、より現実的で困難なシナリオを扱う。代わりに、攻撃者は外部データのみを使用することを想定している。
提案手法「VLOOD」には以下の2つの主要な貢献がある:
- 元の意味論を最小限に損ないながら、複雑な画像テキスト生成タスクでVLMにバックドア攻撃を実現すること
- 元のトレーニングデータへのアクセスを必要としない、バックドア注入のための革新的な手法を提案すること
VLOOD は、画像キャプショニングとビジュアル質問応答(VQA)タスクで評価され、VLMに対する重大なセキュリティ脆弱性を明らかにし、マルチモーダルモデルに対する高度な脅威への対策に向けた基盤を築いている。
統計資料
外部データを使用してもVLMにバックドアを挿入できる
バックドア挿入後も、元の意味論を最小限に損なうことができる
提案手法「VLOOD」は、画像キャプショニングとVQAタスクで高い攻撃成功率を達成できる
引述
「外部データを使用してVLMにバックドアを挿入する新しい手法を提案する」
「元の意味論を最小限に損ないながら、複雑な画像テキスト生成タスクでVLMにバックドア攻撃を実現する」
「元のトレーニングデータへのアクセスを必要としない、バックドア注入のための革新的な手法を提案する」