Die Autoren stellen ein neuartiges duales Diffusionsmodell namens PanFusion vor, um 360-Grad-Panorama-Bilder aus Textbeschreibungen zu generieren. PanFusion besteht aus zwei Zweigen: einem Panorama-Zweig, der die globale Layout-Führung und Registrierung der Perspektiv-Informationen übernimmt, um ein nahtloses Panorama-Ausgabebild zu erhalten, und einem Perspektiv-Zweig, der das reichhaltige Vorwissen des Stable Diffusion-Modells in Perspektiv-Formaten nutzt und Anleitung gibt, um Verzerrungen unter Perspektiv-Projektion abzumildern.
Zur Verbesserung der Interaktion zwischen den beiden Zweigen führen die Autoren einen "Equirectangular-Perspective Projection Attention"-Mechanismus ein, der eine neuartige Korrespondenz zwischen den globalen Panorama- und lokalen Perspektiv-Zweigen herstellt und die einzigartigen Projektionsherausforderungen der Panorama-Synthese adressiert.
Umfangreiche experimentelle Ergebnisse zeigen, dass PanFusion die Qualität und Konsistenz im Vergleich zu früheren Methoden übertrifft und auch erweiterte Kontrolle über den Generierungsprozess durch Einbeziehung von Raumlayout unterstützt.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Cheng Zhang,... ב- arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07949.pdfשאלות מעמיקות