Die Autoren stellen ein neuartiges duales Diffusionsmodell namens PanFusion vor, um 360-Grad-Panorama-Bilder aus Textbeschreibungen zu generieren. PanFusion besteht aus zwei Zweigen: einem Panorama-Zweig, der die globale Layout-Führung und Registrierung der Perspektiv-Informationen übernimmt, um ein nahtloses Panorama-Ausgabebild zu erhalten, und einem Perspektiv-Zweig, der das reichhaltige Vorwissen des Stable Diffusion-Modells in Perspektiv-Formaten nutzt und Anleitung gibt, um Verzerrungen unter Perspektiv-Projektion abzumildern.
Zur Verbesserung der Interaktion zwischen den beiden Zweigen führen die Autoren einen "Equirectangular-Perspective Projection Attention"-Mechanismus ein, der eine neuartige Korrespondenz zwischen den globalen Panorama- und lokalen Perspektiv-Zweigen herstellt und die einzigartigen Projektionsherausforderungen der Panorama-Synthese adressiert.
Umfangreiche experimentelle Ergebnisse zeigen, dass PanFusion die Qualität und Konsistenz im Vergleich zu früheren Methoden übertrifft und auch erweiterte Kontrolle über den Generierungsprozess durch Einbeziehung von Raumlayout unterstützt.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Cheng Zhang,... a las arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07949.pdfConsultas más profundas