本研究は、拡散モデルを用いた高品質な多主体画像生成の課題に取り組んでいる。従来の拡散モデルは、複数の主体を含む画像生成に困難を伴っていた。主体の欠落や主体の融合などの問題が生じていた。
本手法では、3つのフェーズからなるアプローチを提案している:
初期段階(拡散ステップ前半)では、各主体の注意マップが空間的に分離されるよう、特定の損失関数を用いて最適化を行う。これにより、主体の明確な表現を得る。
次に、主体ごとのマスクを抽出し、主体間の重複を最小化するようにマスクを再配置する。さらに、潜在空間を再調整して、新しいマスクに合わせる。
最後の拡散ステップでは、固定されたマスクに注意マップが沿うよう誘導する。
この一連のプロセスにより、多主体画像生成の課題である主体の欠落や融合を効果的に解決している。
広範な実験の結果、提案手法が既存手法を大幅に上回る性能を示すことが確認された。定量的な評価指標においても、提案手法の優位性が示された。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問