本論文では、学習不可能な例(Unlearnable Examples: UEs)に対する効率的な精製手法を提案している。UEsは、訓練データに微小な摂動を加えることで、モデルの一般化性能を大幅に低下させる攻撃手法である。
まず、率制約付き変分オートエンコーダ(VAE)が、UEsに含まれる摂動を効果的に除去できることを発見した。理論的な分析により、VAEがUEsの特性を上手く捉えられることを示した。
次に、クラス固有の埋め込みを使ったディスエンタングルメントを行うD-VAEを提案した。D-VAEは、入力画像から摂動を分離し、摂動を除去した画像を生成できる。
さらに、2段階の精製フレームワークを提案した。第1段階では、大きな摂動を除去し、第2段階では精密な精製を行う。この2段階アプローチにより、様々なUEsに対して高い精製性能を発揮する。
実験では、CIFAR-10、CIFAR-100、100クラスのImageNetサブセットのデータセットで評価を行った。提案手法は、既存の防御手法と比べて大幅な性能向上を示した。例えば、ImageNetサブセットでは、クリーンデータと比べて4%程度の性能低下にとどまった。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問