核心概念
ロバストな分類器をエネルギーベースモデルとして解釈することで、敵対的訓練の動態をより深く理解できる。また、ロバストな分類器は自然データとの間のエネルギー差を小さくすることで、過剰適合を抑制し、生成能力を向上させることができる。
要約
本研究では、ロバストな分類器をエネルギーベースモデルとして再解釈することで、敵対的訓練の動態をより深く理解することを目的としている。
まず、敵対的攻撃の種類によって、入力データのエネルギー分布に異なる影響を与えることを示した。無標的攻撃は元のデータよりもエネルギーの低い点を生成するのに対し、標的攻撃は逆の傾向を示す。
次に、標準的な敵対的訓練(SAT)とTRADES[64]の動態をエネルギーの観点から分析した。SATでは訓練の後期に自然データとの間のエネルギー差が大きくなり、過剰適合が起こることを明らかにした。一方、TRADESはこの問題を緩和することができる。
さらに、ロバストな分類器ほどエネルギー景観が滑らかになる傾向があることを発見した。これは、自然データとの間のエネルギー差を小さくすることで実現されている。
これらの洞察に基づき、エネルギーに基づいて訓練サンプルを重み付けするWEAT(Weighted Energy Adversarial Training)を提案した。WEATは既存手法と同等以上のロバスト性を示し、さらに生成能力も高めることができた。
統計
敵対的攻撃によって生成された点は、元のデータよりもモデルにとって「より自然な」(エネルギーが低い)点となる。
標準的な敵対的訓練では、訓練の後期に自然データとの間のエネルギー差が大きくなり、過剰適合が起こる。
ロバストな分類器ほどエネルギー景観が滑らかになる傾向がある。
引用
"AT dynamic is governed by three phases and robust overfitting occurs in the third phase with a drastic divergence between natural and adversarial energies"
"by rewriting the loss of TRadeoff-inspired Adversarial DEfense via Surrogate-loss minimization (TRADES) in terms of energies, we show that TRADES implicitly alleviates overfitting by means of aligning the natural energy with the adversarial one"