本論文では、テキストから画像への拡散モデルの信頼性を検証するために、転移可能な敵対的攻撃手法を提案する。
まず、従来手法の転移性が低い理由を分析する。拡散モデルの生成空間内では、標的概念の分布が高密度領域に集中しており、多くの消去手法がこの高密度領域を対象としているため、標的概念を復元できる埋め込みは低密度領域に存在すると考えられる。
そこで本手法では、敵対的な検索戦略を採用し、元のStable Diffusion (SD)モデルを代理モデルとして使用して、埋め込みの消去と検索を交互に行う。これにより、低密度領域に存在する埋め込みを見つけ出すことができ、これらの埋め込みは消去手法によって見逃されやすく、標的概念の復元に有効である。
広範な実験の結果、提案手法の転移性と、オブジェクト、アーティストスタイル、NSFW、アイデンティティなどの多様な概念に対する有効性が示された。特に、アイデンティティの復元は非常に困難な課題であるが、提案手法は黒箱設定でも良好な結果を示した。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Xiaoxuan Han... at arxiv.org 05-01-2024
https://arxiv.org/pdf/2404.19382.pdfDeeper Inquiries