ImgTrojan: Jailbreaking Vision-Language Models with ONE Image
核心概念
VLMs can be compromised by poisoning training data with malicious image-text pairs, leading to successful jailbreak attacks.
要約
最近、大規模言語モデル(LLM)と人間の価値観を整合させることに関心が高まっている。しかし、ビジョン言語モデル(VLM)との統合における安全性問題は未だ十分に探求されていない。本論文では、VLMに対する新しいジェイルブレイキング攻撃「ImgTrojan」を提案し、有害な指示を入力した際の安全バリアーを回避することを目的としている。我々の方法は、トレーニングデータに毒入り(画像、テキスト)ペアが含まれている状況を想定しており、元のテキストキャプションを悪意のあるジェイルブレイクプロンプトで置き換えることで、毒入り画像でジェイルブレイク攻撃を行うことが可能である。また、毒割合や訓練可能パラメーターの位置が攻撃成功率に与える影響も分析している。我々は攻撃の成功率とステルス性を定量化するために2つのメトリックスを設計し、攻撃効果測定用の基準値も提供している。
ImgTrojan
統計
我々の方法は10,000サンプル中1つの画像だけを毒入りさせた場合でも、攻撃成功率(ASR)が51.2%増加することを示した。
100サンプル未満でASRが83.5%まで上昇し、以前のOCRベース攻撃や敵対的例外攻撃よりも優れた結果を示した。
毒割合0.01%ではASRが28.1%に達し、クリーン画像への字幕結果へほぼ影響しなかった。
引用
"ImgTrojan effectively bypasses the safety barriers of VLMs, highlighting the vulnerability of these models when exposed to image-based Trojan attacks."
"Our contributions introduce ImgTrojan, a novel cross-modality jailbreak attack that compromises VLMs by poisoning the training data with malicious image-text pairs."
"Our analysis reveals that even a small contamination of training data can compromise the model without raising significant suspicion."
深掘り質問
どうすればVLMへのこの種の攻撃から保護することができますか?
この研究によって明らかになったVLMへの攻撃手法は、データ毒入りを利用してモデルを操作し、有害なクエリに応答させる可能性があります。これに対抗するためにはいくつかのアプローチが考えられます。
データフィルタリング強化: 毒入りサンプルを検出し、取り除くための効果的なフィルタリングメカニズムを導入します。CLIP類似性スコアや他の検出手法を使用して、毒入りサンプルを特定し、トレーニングデータセットから排除します。
安全訓練と監視: 安全訓練技術や異常検知システムを導入して、不正行為や攻撃パターンを監視および防御します。モデルが予期しない挙動を示した場合は自動的に停止する仕組みも有効です。
認識されていないジェイルブレイク試行: デフォールトでは無害と見なされる一連の指示でも危険である可能性があることから、「未知」または「怪しい」とマークされたジェイルブレイク試行パターンも含む広範囲な教師付けデータセットでモデルを訓練することも重要です。
透過的で責任あるAI開発: 組織内外で透明性と責任あるAI開発プラクティスを推進し、倫理的・社会的影響評価(EIA)や公共政策形成者向け情報提供等も含めて包括的なアプローチが必要です。
これらの対策は組み合わせて適用されることでVLMへの攻撃から保護する能力が向上します。