本研究は、視覚言語モデル(VLM)に対するバックドア攻撃の脆弱性を初めて調査した。TrojVLMと呼ばれる新しい攻撃手法を提案し、画像キャプショニングやビジュアル質問応答(VQA)タスクでの有効性を実証した。
TrojVLMは、VLMのアダプター部分のみを微調整することで、効率的にバックドアを挿入する。攻撃時、ターゲットテキストを生成出力に挿入するが、元の画像の意味的整合性を維持する。これを実現するため、言語モデルロスに加え、新たに意味的保持ロスを導入した。
実験の結果、TrojVLMは高い攻撃成功率を達成しつつ、出力テキストの質を保持することができた。さらに、視覚特徴とテキスト情報の相互作用を分析し、画像トリガーとターゲットテキストの密接な関係を明らかにした。
本研究は、VLMのセキュリティ上の重大な脆弱性を明らかにし、複雑なバックドア攻撃に対する防御の必要性を示唆している。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania