Core Concepts
Unser duales Diffusionsmodell PanFusion kann realistische und konsistente 360-Grad-Panorama-Bilder aus einer einzelnen Textbeschreibung generieren, indem es die globale Panorama-Perspektive und die lokale Perspektiv-Perspektive nutzt.
Abstract
Die Autoren stellen ein neuartiges duales Diffusionsmodell namens PanFusion vor, um 360-Grad-Panorama-Bilder aus Textbeschreibungen zu generieren. PanFusion besteht aus zwei Zweigen: einem Panorama-Zweig, der die globale Layout-Führung und Registrierung der Perspektiv-Informationen übernimmt, um ein nahtloses Panorama-Ausgabebild zu erhalten, und einem Perspektiv-Zweig, der das reichhaltige Vorwissen des Stable Diffusion-Modells in Perspektiv-Formaten nutzt und Anleitung gibt, um Verzerrungen unter Perspektiv-Projektion abzumildern.
Zur Verbesserung der Interaktion zwischen den beiden Zweigen führen die Autoren einen "Equirectangular-Perspective Projection Attention"-Mechanismus ein, der eine neuartige Korrespondenz zwischen den globalen Panorama- und lokalen Perspektiv-Zweigen herstellt und die einzigartigen Projektionsherausforderungen der Panorama-Synthese adressiert.
Umfangreiche experimentelle Ergebnisse zeigen, dass PanFusion die Qualität und Konsistenz im Vergleich zu früheren Methoden übertrifft und auch erweiterte Kontrolle über den Generierungsprozess durch Einbeziehung von Raumlayout unterstützt.
Stats
Die Panorama-Bilder haben eine Auflösung von 2:1 und eine Größe von 512x1024 Pixeln.
Es werden 20 Perspektiv-Ansichten mit einem Sichtfeld von 90 Grad verwendet.
Der Datensatz Matterport3D mit 10.800 Panorama-Bildern und 2.295 Raumlayout-Annotationen wird verwendet.
Quotes
"Unser PanFusion kann realistische und konsistente 360-Grad-Panorama-Bilder aus einer einzelnen Textbeschreibung generieren, im Vergleich zu dem begrenzten Sichtfeld der aktuellen State-of-the-Art-Methode MVDiffusion."
"PanFusion nicht nur die Qualität und Konsistenz früherer Modelle übertrifft, sondern auch erweiterte Kontrolle über den Generierungsprozess durch Einbeziehung von Raumlayout unterstützt."