Core Concepts
公開された基盤モデルの使用は、下流のシステムに深刻な脆弱性をもたらす可能性があることを示唆しています。
Abstract
この記事では、公開された基盤モデル(CLIPなど)を使用して作成されたアドバーサリアル攻撃が、さまざまなビジョン-言語タスクにおける下流モデルのパフォーマンスを著しく低下させることが示されています。PRM(Patch Representation Misalignment)と呼ばれる攻撃戦略は、特に密な予測者(OVSおよびOVDモデル)で効果的であり、全体的なセマンティック歪みを誘発する能力が際立っています。また、VQAやキャプショニングターゲットモデルに対する攻撃も有効であることが示されています。これらの結果は、基盤モデルから下流システムへの脆弱性の遺伝可能性を強く示唆しています。
Introduction
- Foundation models combine vision and language modalities.
- CLIP is widely used in downstream models for various tasks.
Adversarial Transferability
- Adversarial attacks aim to degrade model performance.
- Transfer-based attacks can be crafted without access to target model parameters.
Methods
- PRM attack strategy induces dense semantic distortions.
- Cosine similarity minimization drives adversarial token representations away from clean counterparts.
Experiments and Evaluation
- PRM outperforms baseline methods across various tasks and models.
- Attack efficacy is observed on OVS, OVD, IC, and VQA target models.
- PRM perturbations induce semantically consistent mistakes across different tasks.
Stats
"PRMは他の20以上のターゲットモデルで効果的な敵対的攻撃を作成します。"
"被害者モデルへの攻撃は平均IoUメトリックで評価されます。"
Quotes
"我々はCLIPから下流システムへの脆弱性に関する意識向上を目指しています。"
"PRMは他の方法よりも明らかに優れた攻撃転送性能を達成します。"