テキストから画像への拡散モデルの信頼性を検証する: 転移可能な敵対的攻撃の観点から
テキストから画像への拡散モデルには、アイデンティティのプライバシー侵害、著作権侵害、NSFW(Not Safe For Work)コンテンツ生成などの安全性の懸念がある。これらの問題に対処するため、概念消去手法が開発されているが、これらの手法は単にテキストから画像への写像を変化させるだけで、拡散モデルの生成空間内の視覚的コンテンツは保持されたままであり、消去された概念を復元する致命的な欠陥がある。この消去の信頼性問題を検証する必要があるが、従来の手法は転移性の欠如や攻撃の限界があった。本研究では、転移可能な敵対的攻撃を活用して、未学習モデルの堅牢性を検証する。