In dieser Arbeit präsentieren wir eine neuartige Bildbearbeitungstechnik, die 3D-Manipulationen auf Einzelbildern wie Objektrotation und -translation ermöglicht. Im Gegensatz zu bestehenden 3D-bewussten Bildbearbeitungsansätzen, die auf synthetischen Mehrfachansichten-Datensätzen für das Training spezialisierter Modelle angewiesen sind, nutzen wir direkt leistungsfähige Bildiffusions-Modelle, die auf einem breiten Spektrum von Text-Bild-Paaren trainiert wurden.
Unser Verfahren besteht aus einem iterativen Algorithmus für neuartige Sichtgenerierung und Geometrieausrichtung. Diffusions-Modelle werden dabei für zwei Zwecke genutzt: Sie liefern Erscheinungspriors, indem sie neue Ansichten des ausgewählten Objekts unter Verwendung geschätzter Tiefenkarten vorhersagen, und sie fungieren als Geometrie-Kritiker, indem sie Fehlausrichtungen in 3D-Formen über die abgetasteten Ansichten korrigieren.
Unser Verfahren kann hochwertige 3D-bewusste Bildbearbeitungen mit großen Blickwinkeltransformationen und hoher Erscheinungs- und Formkonsistenz mit dem Eingangsbild erzeugen, wodurch die Grenzen dessen, was mit Einzelbild-3D-bewusster Bearbeitung möglich ist, erweitert werden.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania