本研究では、ロバストな分類器をエネルギーベースモデルとして再解釈することで、敵対的訓練の動態をより深く理解することを目的としている。
まず、敵対的攻撃の種類によって、入力データのエネルギー分布に異なる影響を与えることを示した。無標的攻撃は元のデータよりもエネルギーの低い点を生成するのに対し、標的攻撃は逆の傾向を示す。
次に、標準的な敵対的訓練(SAT)とTRADES[64]の動態をエネルギーの観点から分析した。SATでは訓練の後期に自然データとの間のエネルギー差が大きくなり、過剰適合が起こることを明らかにした。一方、TRADESはこの問題を緩和することができる。
さらに、ロバストな分類器ほどエネルギー景観が滑らかになる傾向があることを発見した。これは、自然データとの間のエネルギー差を小さくすることで実現されている。
これらの洞察に基づき、エネルギーに基づいて訓練サンプルを重み付けするWEAT(Weighted Energy Adversarial Training)を提案した。WEATは既存手法と同等以上のロバスト性を示し、さらに生成能力も高めることができた。
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Mujtaba Huss... о arxiv.org 09-11-2024
https://arxiv.org/pdf/2407.06315.pdfГлибші Запити