In dieser Arbeit präsentieren wir eine neuartige Bildbearbeitungstechnik, die 3D-Manipulationen auf Einzelbildern wie Objektrotation und -translation ermöglicht. Im Gegensatz zu bestehenden 3D-bewussten Bildbearbeitungsansätzen, die auf synthetischen Mehrfachansichten-Datensätzen für das Training spezialisierter Modelle angewiesen sind, nutzen wir direkt leistungsfähige Bildiffusions-Modelle, die auf einem breiten Spektrum von Text-Bild-Paaren trainiert wurden.
Unser Verfahren besteht aus einem iterativen Algorithmus für neuartige Sichtgenerierung und Geometrieausrichtung. Diffusions-Modelle werden dabei für zwei Zwecke genutzt: Sie liefern Erscheinungspriors, indem sie neue Ansichten des ausgewählten Objekts unter Verwendung geschätzter Tiefenkarten vorhersagen, und sie fungieren als Geometrie-Kritiker, indem sie Fehlausrichtungen in 3D-Formen über die abgetasteten Ansichten korrigieren.
Unser Verfahren kann hochwertige 3D-bewusste Bildbearbeitungen mit großen Blickwinkeltransformationen und hoher Erscheinungs- und Formkonsistenz mit dem Eingangsbild erzeugen, wodurch die Grenzen dessen, was mit Einzelbild-3D-bewusster Bearbeitung möglich ist, erweitert werden.
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Ruicheng Wan... о arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11503.pdfГлибші Запити