本研究では、ロバストな分類器をエネルギーベースモデルとして再解釈することで、敵対的訓練の動態をより深く理解することを目的としている。
まず、敵対的攻撃の種類によって、入力データのエネルギー分布に異なる影響を与えることを示した。無標的攻撃は元のデータよりもエネルギーの低い点を生成するのに対し、標的攻撃は逆の傾向を示す。
次に、標準的な敵対的訓練(SAT)とTRADES[64]の動態をエネルギーの観点から分析した。SATでは訓練の後期に自然データとの間のエネルギー差が大きくなり、過剰適合が起こることを明らかにした。一方、TRADESはこの問題を緩和することができる。
さらに、ロバストな分類器ほどエネルギー景観が滑らかになる傾向があることを発見した。これは、自然データとの間のエネルギー差を小さくすることで実現されている。
これらの洞察に基づき、エネルギーに基づいて訓練サンプルを重み付けするWEAT(Weighted Energy Adversarial Training)を提案した。WEATは既存手法と同等以上のロバスト性を示し、さらに生成能力も高めることができた。
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Mujtaba Huss... às arxiv.org 09-11-2024
https://arxiv.org/pdf/2407.06315.pdfPerguntas Mais Profundas