Der Artikel stellt eine neue Methode für die objektbasierte Bildbearbeitung mit Diffusionsmodellen vor. Die Kernidee ist, dass unterschiedliche Bearbeitungspaare (d.h. ein Objekt im Originalbild und sein entsprechendes Zielobjekt) jeweils einen anderen optimalen Umkehrungsschritt erfordern, um eine gute Editierbarkeit bei gleichzeitiger Treue zum Originalbild zu erreichen.
Zunächst wird ein Suchmetrik entwickelt, um den optimalen Umkehrungsschritt für jedes Bearbeitungspaar automatisch zu bestimmen. Dieser Schritt berücksichtigt sowohl die Editierbarkeit des Zielobjekts als auch die Treue des Nicht-Bearbeitungsbereichs zum Originalbild.
Anschließend wird ein neuartiges Bildbearbeitungsparadigma, genannt "Object-aware Inversion and Reassembly" (OIR), vorgestellt. Dabei werden die einzelnen Bearbeitungspaare zunächst getrennt bearbeitet, um Konzeptfehler zu vermeiden. Danach erfolgt ein zusätzlicher Reassembly-Schritt, um die Bearbeitungsergebnisse nahtlos mit dem Nicht-Bearbeitungsbereich zu integrieren.
Umfangreiche Experimente auf zwei neuen Datensätzen zeigen, dass der Ansatz deutlich bessere Ergebnisse als der Stand der Technik erzielt, insbesondere bei der Bearbeitung von Bildern mit mehreren Objekten.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Zhen Yang,Ga... lúc arxiv.org 03-19-2024
https://arxiv.org/pdf/2310.12149.pdfYêu cầu sâu hơn