Temel Kavramlar
本論文では、テキストから高品質な360度パノラマ画像を生成する新しい手法「PanFusion」を提案する。PanFusionは、パノラマ画像生成と視点画像生成の2つのブランチを持つデュアルブランチ型のディフュージョンモデルであり、両者の協調的な学習により、従来手法よりも高品質で一貫性のあるパノラマ画像を生成できる。
Özet
本論文では、テキストから360度パノラマ画像を生成する新しい手法「PanFusion」を提案している。
まず、データの不足と幾何学的な違いという2つの課題に取り組むため、PanFusionはパノラマブランチと視点ブランチの2つのブランチから構成されている。パノラマブランチは全体的なレイアウトを提供し、視点ブランチは安定拡散モデルの豊富な視点画像生成機能を活用する。2つのブランチは「等角-透視投影注意機構」を通じて情報をやり取りし、高品質で一貫性のあるパノラマ画像を生成する。
さらに、パノラマブランチにはレイアウト条件を組み込むことができ、指定されたレイアウトに沿ったパノラマ画像を生成できる。
実験の結果、PanFusionは従来手法よりも高品質で一貫性のあるパノラマ画像を生成でき、レイアウト条件付き生成でも優れた性能を示した。
İstatistikler
360度パノラマ画像の生成は、データの不足と幾何学的な違いから課題がある。
従来手法では、反復的な要素や不整合な結果が生じる問題があった。
Alıntılar
"PanFusion is designed to operate in both panorama and perspective domains, employing a global branch for creating a coherent panoramic "canvas" and a local branch that focuses on rendering detail-rich multiview perspectives."
"To enhance the synergy between the two branches, we further propose an Equirectangular-Perspective Projection Attention (EPPA) mechanism, which respects the equirectangular projection for maintaining geometric integrity throughout the generation process."