핵심 개념
視覚言語モデルは敵対的攻撃に対して脆弱であり、特にジェイルブレイク攻撃に対して脆弱である。Sim-CLIP+は、Siamese アーキテクチャを活用し、敵対的サンプルと清浄なサンプルの間のコサイン類似度を最大化することで、視覚言語モデルの堅牢性を大幅に向上させる。
초록
本論文は、視覚言語モデル(LVLM)の安全性と信頼性を高めるための新しい防御メカニズムであるSim-CLIP+を提案している。
LVLMは、テキストと画像の両方のデータを活用して高度な機能を発揮するが、敵対的攻撃に対して脆弱である。特に、ジェイルブレイク攻撃は、モデルの安全性メカニズムを回避し、有害なコンテンツを生成することができる。
Sim-CLIP+は、Siamese アーキテクチャを活用し、敵対的に微調整されたCLIPビジョンエンコーダを提案する。この手法は、敵対的に攪乱されたサンプルと清浄なサンプルの間のコサイン類似度を最大化することで、敵対的操作に対する耐性を高める。Sim-CLIP+は既存のLVLMアーキテクチャに簡単に統合できる「プラグアンドプレイ」のソリューションを提供し、モデルの清浄な精度を維持しつつ、ジェイルブレイク攻撃に対する堅牢性を大幅に向上させる。
実験の結果、Sim-CLIP+は、勾配ベースの敵対的攻撃とさまざまなジェイルブレイク手法に対して高い有効性を示した。また、標準的なダウンストリームデータセットを使用した清浄な評価でも、優れたパフォーマンスを維持することが確認された。
통계
敵対的攻撃に対するSim-CLIP+の防御効果は、LLaVA (Llama-2-13B)モデルでは、VisualAdvの攻撃強度ϵ=16/255の場合、平均毒性スコアが20.8%から14.1%に低下した。
LLaVA (Llama-2-13B)モデルでのImgJP攻撃のASRは、CLIP エンコーダでは28.0%だったのに対し、Sim-CLIP+4エンコーダでは15.0%に低下した。
LLaVA (Vicuna-7B)モデルでのImgJP攻撃のASRは、CLIP エンコーダでは34.0%だったのに対し、Sim-CLIP+4エンコーダでは19.3%に低下した。
인용구
"LVLMは、テキストと画像の両方のデータを活用して高度な機能を発揮するが、敵対的攻撃に対して脆弱である。"
"Sim-CLIP+は、既存のLVLMアーキテクチャに簡単に統合できる「プラグアンドプレイ」のソリューションを提供し、モデルの清浄な精度を維持しつつ、ジェイルブレイク攻撃に対する堅牢性を大幅に向上させる。"