本論文は、視覚言語モデル(LVLM)の安全性と信頼性を高めるための新しい防御メカニズムであるSim-CLIP+を提案している。
LVLMは、テキストと画像の両方のデータを活用して高度な機能を発揮するが、敵対的攻撃に対して脆弱である。特に、ジェイルブレイク攻撃は、モデルの安全性メカニズムを回避し、有害なコンテンツを生成することができる。
Sim-CLIP+は、Siamese アーキテクチャを活用し、敵対的に微調整されたCLIPビジョンエンコーダを提案する。この手法は、敵対的に攪乱されたサンプルと清浄なサンプルの間のコサイン類似度を最大化することで、敵対的操作に対する耐性を高める。Sim-CLIP+は既存のLVLMアーキテクチャに簡単に統合できる「プラグアンドプレイ」のソリューションを提供し、モデルの清浄な精度を維持しつつ、ジェイルブレイク攻撃に対する堅牢性を大幅に向上させる。
実験の結果、Sim-CLIP+は、勾配ベースの敵対的攻撃とさまざまなジェイルブレイク手法に対して高い有効性を示した。また、標準的なダウンストリームデータセットを使用した清浄な評価でも、優れたパフォーマンスを維持することが確認された。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania