この論文では、未学習拡散モデル(DMs)の安全性に焦点を当てています。最近の進歩により、リアルかつ複雑な画像の生成が可能になりましたが、これらのモデルは有害なコンテンツを生成する可能性があります。本論文では、これらの課題に対処するために、安全性重視型DMsの信頼性を判断するための評価フレームワークが導入されています。具体的には、UnlearnDiffAtkという効果的かつ効率的な攻撃生成手法が開発されました。この手法はDMsの固有の分類能力を活用しており、補助分類や拡散モデルが不要です。さらに、広範囲な比較評価からUnlearnDiffAtkの優れたロバストさと効率性が示されています。
1. Introduction
DMs have revolutionized image generation but pose safety hazards.
Safety-driven unlearning techniques aim to counteract these challenges.
Evaluation framework UnlearnDiffAtk leverages adversarial prompts.
2. Recent Advances in DMs
Diffusion models have transformed text-to-image generation.
Concerns about generating NSFW imagery with inappropriate prompts.
Safety-driven technologies incorporated to mitigate risks.
3. Machine Unlearning and Safety-driven DMs
Machine unlearning aims to enhance privacy and security without retraining.
Safety-driven DMs designed to prevent harmful image generation.
4. Adversarial Prompt Generation Approach
UnlearnDiffAtk simplifies prompt generation by leveraging intrinsic classification abilities of DMs.
Extensive benchmarking shows effectiveness and efficiency over existing methods.
To Generate or Not? Safety-Driven Unlearned Diffusion Models Are Still Easy To Generate Unsafe Images ... For Now
Stats
Codes are available at https://github.com/OPTML-Group/Diffusion-MU-Attack.
Quotes
"Recent advances in diffusion models have revolutionized the generation of realistic and complex images."
"Doubts about the efficacy of safety-driven unlearning techniques persist."
"Our results demonstrate the effectiveness and efficiency merits of UnlearnDiffAtk."