แนวคิดหลัก
ZONE ermöglicht hochpräzise lokale Bildbearbeitung durch Ausnutzung impliziter Zusammenhänge zwischen Bearbeitungsregionen und Nutzeranweisungen in vortrainierten instruktionsgesteuerten Diffusionsmodellen.
บทคัดย่อ
Die Studie präsentiert ZONE, eine nullbasierte instruktionsgesteuerte Methode zur lokalen Bildbearbeitung. Im Gegensatz zu bestehenden Ansätzen, die entweder komplexe textuelle Beschreibungen oder zusätzliche Eingaben wie Segmentierungsmasken erfordern, nutzt ZONE die impliziten Zusammenhänge zwischen Bearbeitungsregionen und Nutzeranweisungen in vortrainierten instruktionsgesteuerten Diffusionsmodellen.
Kernelemente von ZONE sind:
- Lokalisierung der Bearbeitungsregion durch Analyse der Aufmerksamkeitsmechanismen des instruktionsgesteuerten Diffusionsmodells InstructPix2Pix.
- Verfeinerung der Bearbeitungsmaske unter Verwendung des Segment Anything Model (SAM) und eines neuartigen Region-IoU-Schemas.
- Nahtlose Komposition der bearbeiteten Bildschicht mithilfe eines auf Fourier-Transformation basierenden Kantenglätters.
Umfangreiche Experimente und Nutzerstudien zeigen, dass ZONE hochwertige lokale Bildbearbeitungsergebnisse ohne zusätzliche Eingaben liefert und die Leistung bestehender Methoden übertrifft.
สถิติ
Die vorgeschlagene ZONE-Methode erzielt im Vergleich zu bestehenden Methoden deutlich bessere Werte bei den Metrik en L1 (0,0146), L2 (0,0061) und LPIPS (0,0441), was auf eine höhere Bildqualität und bessere Strukturerhaltung hindeutet.
ZONE erreicht auch bei den CLIP-basierten Ähnlichkeitsmaßen CLIP-I (0,9688) und CLIP-T (0,2969) die besten Ergebnisse, was auf eine hohe semantische Übereinstimmung zwischen dem bearbeiteten Bild und der Nutzeranweisung schließen lässt.
คำพูด
"ZONE ermöglicht hochpräzise lokale Bildbearbeitung durch Ausnutzung impliziter Zusammenhänge zwischen Bearbeitungsregionen und Nutzeranweisungen in vortrainierten instruktionsgesteuerten Diffusionsmodellen."
"Umfangreiche Experimente und Nutzerstudien zeigen, dass ZONE hochwertige lokale Bildbearbeitungsergebnisse ohne zusätzliche Eingaben liefert und die Leistung bestehender Methoden übertrifft."