本論文では、事前学習済みの安定拡散モデルを利用して、無監督かつゼロショットでの物体分割を実現するDiffSegアルゴリズムを提案している。
まず、安定拡散モデルの自己注意層に着目し、注意マップ間の「Intra-Attention Similarity」と「Inter-Attention Similarity」という2つの特性を発見した。これらの特性を利用して、注意マップを段階的に統合することで、物体ごとの分割マスクを生成することができる。
具体的なアルゴリズムは以下の3つのステップから成る:
提案手法DiffSegは、事前知識や追加リソースを必要とせずに、COCO-Stuff-27やCityscapesなどの分割タスクで従来手法を大きく上回る性能を達成している。また、スケッチや絵画、衛星画像、CT画像など、様々なスタイルの画像に対しても高品質な分割結果を生成できることを示している。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies