Die Autoren präsentieren ein zweistufiges generatives Framework namens "Consistent-1-to-3", das hochwertige und geometrisch konsistente Bildgenerierung von Objektansichten aus einer einzelnen Eingabe ermöglicht.
In der ersten Stufe verwenden sie einen Szenenrepräsentationstransformer (SRT), um eine grobe, aber geometrisch korrekte Ausgabe zu erzeugen. In der zweiten Stufe nutzen sie ein ansichtsgesteuertes Diffusionsmodell, um detaillierte und realistische Bilder zu generieren, die mit der Eingabe konsistent sind.
Um die 3D-Konsistenz zu verbessern, schlagen die Autoren den Einsatz von epipolargesteuerter Aufmerksamkeit und Mehrfachansichtsaufmerksamkeit vor. Außerdem führen sie ein hierarchisches Generierungsparadigma ein, um lange Sequenzen konsistenter 3D-Ansichten zu erzeugen.
Die Autoren evaluieren ihr Modell auf mehreren Datensätzen und zeigen, dass es den Stand der Technik in Bezug auf Qualität und Konsistenz übertrifft. Darüber hinaus kann ihr Ansatz die Leistung der Bildgenerierung weiter verbessern, wenn nur wenige Eingabebilder verwendet werden.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Jianglong Ye... kl. arxiv.org 03-18-2024
https://arxiv.org/pdf/2310.03020.pdfDybere Forespørgsler