Die Studie präsentiert einen neuartigen Diffusions-basierten Rahmen namens Sat2Scene, der in der Lage ist, direkt 3D-Stadtszenen aus Satellitenbildern zu generieren.
Der Ansatz teilt die gesamte Szene in zwei Komponenten auf: den Vordergrund, bestehend aus Gebäuden und Straßen, und den Hintergrund Himmel. Der Vordergrund wird als Punktwolke dargestellt, wobei die Farbinformationen mithilfe eines 3D-Diffusionsmodells in einem sparsamen Einstellungen generiert werden. Der Hintergrund wird als 2D-Panoramabild modelliert und ebenfalls mit einem Diffusionsmodell synthetisiert.
Die generierten Farbinformationen werden dann in einem vorwärtsgerichteten Verfahren in eine Szenenrepräsentation überführt, die es ermöglicht, konsistente Bilder aus beliebigen Ansichten zu rendern. Die Autoren kombinieren dafür Diffusionsmodelle mit neuronalen Rendering-Techniken.
Die Experimente auf zwei stadtweiten Datensätzen zeigen, dass das Modell in der Lage ist, fotorealistische Straßenansichten und stadtweite Szenen aus Satellitenbildern zu generieren, wobei es sowohl in Bezug auf Einzelbildqualität als auch auf zeitliche Konsistenz überlegen ist.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies