In dieser Arbeit präsentieren wir eine neuartige Bildbearbeitungstechnik, die 3D-Manipulationen auf Einzelbildern wie Objektrotation und -translation ermöglicht. Im Gegensatz zu bestehenden 3D-bewussten Bildbearbeitungsansätzen, die auf synthetischen Mehrfachansichten-Datensätzen für das Training spezialisierter Modelle angewiesen sind, nutzen wir direkt leistungsfähige Bildiffusions-Modelle, die auf einem breiten Spektrum von Text-Bild-Paaren trainiert wurden.
Unser Verfahren besteht aus einem iterativen Algorithmus für neuartige Sichtgenerierung und Geometrieausrichtung. Diffusions-Modelle werden dabei für zwei Zwecke genutzt: Sie liefern Erscheinungspriors, indem sie neue Ansichten des ausgewählten Objekts unter Verwendung geschätzter Tiefenkarten vorhersagen, und sie fungieren als Geometrie-Kritiker, indem sie Fehlausrichtungen in 3D-Formen über die abgetasteten Ansichten korrigieren.
Unser Verfahren kann hochwertige 3D-bewusste Bildbearbeitungen mit großen Blickwinkeltransformationen und hoher Erscheinungs- und Formkonsistenz mit dem Eingangsbild erzeugen, wodurch die Grenzen dessen, was mit Einzelbild-3D-bewusster Bearbeitung möglich ist, erweitert werden.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Ruicheng Wan... klokken arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11503.pdfDypere Spørsmål