Die vorgeschlagene Methode kombiniert Teilbilder, Layout-Informationen in Draufsicht und Textaufforderungen, um 3D-Szenen zu generieren. Dies kompensiert die Nachteile jeder einzelnen Eingabebedingung in komplementärer Weise.
Der Prozess der 3D-Szenen-Generierung wird in zwei Schritte unterteilt: 2D-Bildgenerierung aus den gegebenen Bedingungen und 3D-Generierung aus 2D-Bildern. Für die 2D-Bildgenerierung wird ein vortrainiertes Text-zu-Bild-Modell mit einem kleinen künstlichen Datensatz von Teilbildern und Layouts feinabgestimmt. Die 3D-Szenen-Generierung erfolgt durch layoutbedingte Tiefenschätzung und neuronale Strahlungsfelder (NeRF), um große Datensätze zu vermeiden.
Die Verwendung einer gemeinsamen Darstellung räumlicher Informationen in Form von 360-Grad-Bildern ermöglicht die Berücksichtigung der Interaktion multimodaler Bedingungen und reduziert die Domänenabhängigkeit der Layout-Kontrolle. Die experimentellen Ergebnisse zeigen, dass die vorgeschlagene Methode 3D-Szenen in verschiedenen Domains, von Innen- bis Außenbereich, entsprechend multimodaler Bedingungen generieren kann.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Takayuki Har... at arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00345.pdfDeeper Inquiries