Die Autoren präsentieren ein zweistufiges generatives Framework namens "Consistent-1-to-3", das hochwertige und geometrisch konsistente Bildgenerierung von Objektansichten aus einer einzelnen Eingabe ermöglicht.
In der ersten Stufe verwenden sie einen Szenenrepräsentationstransformer (SRT), um eine grobe, aber geometrisch korrekte Ausgabe zu erzeugen. In der zweiten Stufe nutzen sie ein ansichtsgesteuertes Diffusionsmodell, um detaillierte und realistische Bilder zu generieren, die mit der Eingabe konsistent sind.
Um die 3D-Konsistenz zu verbessern, schlagen die Autoren den Einsatz von epipolargesteuerter Aufmerksamkeit und Mehrfachansichtsaufmerksamkeit vor. Außerdem führen sie ein hierarchisches Generierungsparadigma ein, um lange Sequenzen konsistenter 3D-Ansichten zu erzeugen.
Die Autoren evaluieren ihr Modell auf mehreren Datensätzen und zeigen, dass es den Stand der Technik in Bezug auf Qualität und Konsistenz übertrifft. Darüber hinaus kann ihr Ansatz die Leistung der Bildgenerierung weiter verbessern, wenn nur wenige Eingabebilder verwendet werden.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania