本論文は、拡散モデルに対するバックドア攻撃の脅威に取り組んでいる。拡散モデルは、訓練段階でサンプルを汚染することで、悪意のある攻撃者によってバックドアに脆弱であることが明らかになっている。これは、APIを介してモデルにクエリを送るエンドユーザーや、インターネットからモデルをダウンロードするユーザーに深刻な脅威を及ぼす。
バックドア検出に関する多くの研究が行われてきたが、拡散モデル特有の検出手法は開発されていない。また、従来の手法は分類タスクのニューラルネットワークを対象としており、生成タスクへの適用が困難である。さらに、多くの手法は、モデルの重みやアーキテクチャ、確率ロジットなどの情報を必要としており、実用的ではない。
そこで本論文では、拡散モデルのバックドア検出のための統一フレームワーク(UFID)を提案する。UFIDは、拡散モデルの生成プロセスの因果分析に基づいて設計されており、理論的な分析によっても裏付けられている。条件付き/無条件の拡散モデルに対して、入力に異なるノイズを付加し、生成された画像の類似性を分析することで、効果的かつ効率的にバックドアサンプルを検出することができる。
実験の結果、提案手法は様々なデータセットおよび拡散モデルに対して優れた性能を示すことが確認された。特に、検出精度と実行時間の両面で優れた結果が得られた。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Zihan Guan,M... kl. arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.01101.pdfDybere Forespørgsler