Core Concepts
一般的に使用される代替ベースの緩和が、訓練された分類器の最終的な堅牢性に対する保証を無効にし、弱い敵対者と効果のないアルゴリズムをもたらす。
Abstract
アドバーサリアルトレーニングは、非ゼロサム双層形式に基づく新しい手法を提案しています。
この手法は、敵対者と防衛者が別々の目的関数を最適化することで、非ゼロサムゲームを構築します。
BETA攻撃アルゴリズムとそれに基づくBETA-AT(BETA Adversarial Training)アルゴリズムが開発されました。
BETA-ATは堅牢な過学習を排除し、早期停止ベースのモデル選択を使用してもATと同等のパフォーマンスを発揮します。
BETAはAutoAttackとほぼ同等の堅牢性推定を提供します。
1. 導入
論文では、代替ベースの緩和が訓練された分類器の最終的な堅牢性に対する保証を無効にし、弱い敵対者と効果のないアルゴリズムをもたらすことが指摘されています。
2. 背景情報
深層ニューラルネットワーク(DNNs)はささいな変更に脆弱であり、特に敵対的例証(adversarial examples)では最先端分類器をだますことが示されています。
アドバーサリアルトレーニング(AT)アルゴリズムはこれらの脆弱性に対処するために提案されており、通常2プレイヤー零和ゲームとして定式化されます。
3. 新しい手法:BETA攻撃およびBETA-AT
BETA攻撃アルゴリズムおよびそれに基づくBETA-AT(BETA Adversarial Training)アルゴリズムが開発されました。
BETA-ATは堅牢な過学習を排除し、早期停止ベースのモデル選択を使用してもATと同等のパフォーマンスを発揮します。
4. 実験結果
実験では、BETAやBETA-ATが他の既存手法やAutoAttackと比較して優れたパフォーマンスを示すことが確認されました。RobustBench上でAutoAttackやAPGD-Tと比較した際も同等以上の結果が得られました。
Stats
一般的な代替ベースの緩和が訓練された分類器の最終的な堅牢性に対する保証を無効化する可能性がある
Quotes
"代替ベース攻撃は知覚上堅固性を過大評価する傾向がある" - Francesco Croce et al., 2020
"我々は新しい双層形式である非零和形式から始めました" - Alexander Robey et al., 2024