핵심 개념
VLMs can be compromised by poisoning training data with malicious image-text pairs, leading to successful jailbreak attacks.
초록
最近、大規模言語モデル(LLM)と人間の価値観を整合させることに関心が高まっている。しかし、ビジョン言語モデル(VLM)との統合における安全性問題は未だ十分に探求されていない。本論文では、VLMに対する新しいジェイルブレイキング攻撃「ImgTrojan」を提案し、有害な指示を入力した際の安全バリアーを回避することを目的としている。我々の方法は、トレーニングデータに毒入り(画像、テキスト)ペアが含まれている状況を想定しており、元のテキストキャプションを悪意のあるジェイルブレイクプロンプトで置き換えることで、毒入り画像でジェイルブレイク攻撃を行うことが可能である。また、毒割合や訓練可能パラメーターの位置が攻撃成功率に与える影響も分析している。我々は攻撃の成功率とステルス性を定量化するために2つのメトリックスを設計し、攻撃効果測定用の基準値も提供している。
통계
我々の方法は10,000サンプル中1つの画像だけを毒入りさせた場合でも、攻撃成功率(ASR)が51.2%増加することを示した。
100サンプル未満でASRが83.5%まで上昇し、以前のOCRベース攻撃や敵対的例外攻撃よりも優れた結果を示した。
毒割合0.01%ではASRが28.1%に達し、クリーン画像への字幕結果へほぼ影響しなかった。
인용구
"ImgTrojan effectively bypasses the safety barriers of VLMs, highlighting the vulnerability of these models when exposed to image-based Trojan attacks."
"Our contributions introduce ImgTrojan, a novel cross-modality jailbreak attack that compromises VLMs by poisoning the training data with malicious image-text pairs."
"Our analysis reveals that even a small contamination of training data can compromise the model without raising significant suspicion."