Core Concepts
敵対的ノイズ除去拡散学習(ADDT)は、拡散モデルに敵対的な摂動に直接対抗する能力を与える。これにより、拡散モデルの頑健性が大幅に向上する。
Abstract
本研究は、拡散ベースの浄化(DBP)モデルの頑健性を再検討し、その主要な要因が両プロセス(順方向と逆方向)の確率性にあることを明らかにした。従来の研究では、DBP頑健性の説明に実験的根拠が欠けていたが、本研究の新しい攻撃設定「決定論的ホワイトボックス」によって、確率性が主要な要因であることを示した。
さらに、DBP モデルは敵対的な摂動に直接対抗する能力が低いことを指摘した。そこで、本研究は「敵対的ノイズ除去拡散学習(ADDT)」を提案した。ADDTは、分類器ガイド型摂動最適化(CGPO)を使って敵対的な摂動を生成し、それらに対抗するようにモデルを学習させる。実験の結果、ADDTは DBP モデルの頑健性を大幅に向上させ、敵対的な摂動に直接対抗する能力を与えることが確認された。
Stats
決定論的ホワイトボックス攻撃の下でDPDDPMモデルの精度は16.80%、DPDDIM モデルの精度は4.98%に低下した。
ADDTファインチューニング後のDPDDPMモデルの精度は51.46%、DPDDIM モデルの精度は46.48%に向上した。
Quotes
"DBP モデルは確率性に頼ってもっとも効果的な攻撃方向を回避しているが、敵対的な摂動に直接対抗する能力は低い。"
"ADDTは拡散モデルに敵対的な摂動に直接対抗する能力を与えた。"