Core Concepts
率制約付き変分オートエンコーダを使うことで、学習不可能な例に含まれる摂動を効果的に除去できる。さらに、クラス固有の埋め込みを使ったディスエンタングルメントにより、摂動を分離することができる。これらの洞察に基づいて提案した2段階の精製フレームワークにより、様々な学習不可能な例に対して高い精製性能を発揮する。
Abstract
本論文では、学習不可能な例(Unlearnable Examples: UEs)に対する効率的な精製手法を提案している。UEsは、訓練データに微小な摂動を加えることで、モデルの一般化性能を大幅に低下させる攻撃手法である。
まず、率制約付き変分オートエンコーダ(VAE)が、UEsに含まれる摂動を効果的に除去できることを発見した。理論的な分析により、VAEがUEsの特性を上手く捉えられることを示した。
次に、クラス固有の埋め込みを使ったディスエンタングルメントを行うD-VAEを提案した。D-VAEは、入力画像から摂動を分離し、摂動を除去した画像を生成できる。
さらに、2段階の精製フレームワークを提案した。第1段階では、大きな摂動を除去し、第2段階では精密な精製を行う。この2段階アプローチにより、様々なUEsに対して高い精製性能を発揮する。
実験では、CIFAR-10、CIFAR-100、100クラスのImageNetサブセットのデータセットで評価を行った。提案手法は、既存の防御手法と比べて大幅な性能向上を示した。例えば、ImageNetサブセットでは、クリーンデータと比べて4%程度の性能低下にとどまった。
Stats
UEsの摂動の振幅は、LSPとARでは約1.0、その他のUEsでは約1.5である。
生成された摂動ˆpの振幅は、OPSで約1.8、その他のUEsで0.7から1.0程度である。
生成された新しいUEデータセットˆPは、オリジナルのUEデータセットPと同等の攻撃性能を示す。
Quotes
"VAEsは、JPEGよりも摂動を効果的に除去できる。"
"摂動の特性として、クラス間距離が大きく、クラス内分散が小さいものほど強い攻撃を生み出す傾向がある。"
"摂動の多くはクラス条件付きエントロピーが低い傾向にある。"