核心概念
テキストから画像への拡散モデルには、アイデンティティのプライバシー侵害、著作権侵害、NSFW(Not Safe For Work)コンテンツ生成などの安全性の懸念がある。これらの問題に対処するため、概念消去手法が開発されているが、これらの手法は単にテキストから画像への写像を変化させるだけで、拡散モデルの生成空間内の視覚的コンテンツは保持されたままであり、消去された概念を復元する致命的な欠陥がある。この消去の信頼性問題を検証する必要があるが、従来の手法は転移性の欠如や攻撃の限界があった。本研究では、転移可能な敵対的攻撃を活用して、未学習モデルの堅牢性を検証する。
要約
本論文では、テキストから画像への拡散モデルの信頼性を検証するために、転移可能な敵対的攻撃手法を提案する。
まず、従来手法の転移性が低い理由を分析する。拡散モデルの生成空間内では、標的概念の分布が高密度領域に集中しており、多くの消去手法がこの高密度領域を対象としているため、標的概念を復元できる埋め込みは低密度領域に存在すると考えられる。
そこで本手法では、敵対的な検索戦略を採用し、元のStable Diffusion (SD)モデルを代理モデルとして使用して、埋め込みの消去と検索を交互に行う。これにより、低密度領域に存在する埋め込みを見つけ出すことができ、これらの埋め込みは消去手法によって見逃されやすく、標的概念の復元に有効である。
広範な実験の結果、提案手法の転移性と、オブジェクト、アーティストスタイル、NSFW、アイデンティティなどの多様な概念に対する有効性が示された。特に、アイデンティティの復元は非常に困難な課題であるが、提案手法は黒箱設定でも良好な結果を示した。
統計
拡散モデルは、ノイズを徐々に追加することで画像を生成し、逆過程でノイズを予測することで画像を生成する。
概念消去手法は、標的概念に対応するノイズの予測を変化させることで、その概念を消去する。
提案手法は、元のStable Diffusion (SD)モデルを代理モデルとして使用し、埋め込みの消去と検索を交互に行うことで、標的概念を復元できる埋め込みを見つける。
引用
"テキストから画像への拡散モデルには、アイデンティティのプライバシー侵害、著作権侵害、NSFW(Not Safe For Work)コンテンツ生成などの安全性の懸念がある。"
"これらの消去手法は単にテキストから画像への写像を変化させるだけで、拡散モデルの生成空間内の視覚的コンテンツは保持されたままであり、消去された概念を復元する致命的な欠陥がある。"
"提案手法は、元のStable Diffusion (SD)モデルを代理モデルとして使用し、埋め込みの消去と検索を交互に行うことで、標的概念を復元できる埋め込みを見つける。"