本論文では、テキストから360度パノラマ画像を生成する新しい手法「PanFusion」を提案している。
まず、データの不足と幾何学的な違いという2つの課題に取り組むため、PanFusionはパノラマブランチと視点ブランチの2つのブランチから構成されている。パノラマブランチは全体的なレイアウトを提供し、視点ブランチは安定拡散モデルの豊富な視点画像生成機能を活用する。2つのブランチは「等角-透視投影注意機構」を通じて情報をやり取りし、高品質で一貫性のあるパノラマ画像を生成する。
さらに、パノラマブランチにはレイアウト条件を組み込むことができ、指定されたレイアウトに沿ったパノラマ画像を生成できる。
実験の結果、PanFusionは従来手法よりも高品質で一貫性のあるパノラマ画像を生成でき、レイアウト条件付き生成でも優れた性能を示した。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Cheng Zhang,... alle arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07949.pdfDomande più approfondite