核心概念
Pre-trained Model Guided Adversarial Fine-Tuning (PMG-AFT) method enhances zero-shot adversarial robustness by leveraging supervision from the original pre-trained model.
要約
大規模な事前学習されたビジョン言語モデルは、さまざまなタスクで印象的なパフォーマンスを発揮し、ゼロショット汎化能力を示す。しかし、これらのモデルは不可視の敵対的例に脆弱である。PMG-AFTは、元の事前学習モデルから監督を活用し、ゼロショット敵対的堅牢性を向上させる新しい手法である。この手法は、敵対的ファインチューニングと正確に組み合わせてモデルの堅牢性を向上させる。
統計
Extensive Experiments on 15 zero-shot datasets demonstrate that PMG-AFT significantly outperforms the state-of-the-art method, improving the top-1 robust accuracy by an average of 4.99%.
Our approach consistently improves clean accuracy by an average of 8.72%.