本研究では、単一ステップ敵対的訓練(SSAT)において、一部の敵対的サンプルが訓練中に予期せぬ挙動を示すことを発見した。具体的には、これらの「異常な敵対的サンプル」(AAE)は、内部最大化プロセスによって生成されたにもかかわらず、その関連するロスが減少してしまう。さらに詳しく分析したところ、AAEの数と出力変動は、深刻な過剰適合(CO)と強く相関していることが分かった。
COの発生前から、分類器にわずかな歪みが存在し、それが少数のAAEの生成につながっていることが明らかになった。さらに、これらのAAEを直接最適化すると、分類器の歪みがさらに悪化し、AAEの数が急増する。この悪循環により、分類器は短期間で極端に歪められ、COが発生する。
これらの観察結果に基づき、我々は「異常な敵対的サンプル正規化(AAER)」と呼ばれる新しい手法を提案した。AAERは、AAEの数と出力変動を抑制することで、分類器の歪みを防ぐことを目的としている。広範な実験の結果、AAERは計算コストの増加を最小限に抑えつつ、COを効果的に排除し、ロバスト性を向上させることができることが示された。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問