Kernekoncepter
Diffusionsmodelle haben sich als leistungsfähiges Werkzeug für verschiedene Bildgenerierungs- und Bearbeitungsaufgaben erwiesen und ermöglichen die Synthese von Bildinhalt auf unbedingte oder eingabebedingte Weise.
Resumé
Diese Studie bietet einen umfassenden Überblick über bestehende Methoden zur Verwendung von Diffusionsmodellen für die Bildbearbeitung. Sie analysiert und kategorisiert diese Arbeiten aus verschiedenen Perspektiven, einschließlich Lernstrategien, Eingabebedingungen und einer Vielzahl spezifischer Bearbeitungsaufgaben. Besondere Aufmerksamkeit wird auf Bildinpainting und Bildausweitung gelegt, wobei sowohl frühere traditionelle kontextgesteuerte als auch aktuelle multimodale bedingte Methoden untersucht werden. Darüber hinaus wird ein systematischer Benchmark, EditEval, vorgestellt, der eine innovative Metrik, den LMM-Score, verwendet, um die Leistung textgesteuerter Bildbearbeitungsalgorithmen zu bewerten. Abschließend werden aktuelle Einschränkungen aufgezeigt und mögliche zukünftige Forschungsrichtungen skizziert.
Statistik
Die Diffusionsmodelle können in zwei Hauptklassen eingeteilt werden: denoising diffusion basiert und score-matching basiert.
Diffusionsmodelle können in verschiedenen Aufgaben wie Bildgenerierung, Videogenerierung, Bildrestaurierung und Bildbearbeitung eingesetzt werden.
Diffusionsmodelle können mit verschiedenen Eingabebedingungen wie Text, Maske, Referenzbild, Klasse, Layout, Pose, Skizze, Segmentierungskarte, Audio und Ziehpunkten gesteuert werden.
Bildbearbeitungsaufgaben, die von Diffusionsmodellen bewältigt werden können, umfassen semantische Bearbeitung, stilistische Bearbeitung und strukturelle Bearbeitung.
Citater
"Diffusionsmodelle haben sich als leistungsfähiges Werkzeug für verschiedene Bildgenerierungs- und Bearbeitungsaufgaben erwiesen und ermöglichen die Synthese von Bildinhalt auf unbedingte oder eingabebedingte Weise."
"Besondere Aufmerksamkeit wird auf Bildinpainting und Bildausweitung gelegt, wobei sowohl frühere traditionelle kontextgesteuerte als auch aktuelle multimodale bedingte Methoden untersucht werden."