Diese Studie bietet einen umfassenden Überblick über bestehende Methoden, die Diffusionsmodelle für die Bildbearbeitung verwenden. Sie untersucht die theoretischen und praktischen Aspekte dieses Forschungsfelds eingehend.
Die Methoden werden aus mehreren Perspektiven analysiert und kategorisiert, einschließlich der Lernstrategien, der Eingabebedingungen und der vielfältigen Bearbeitungsaufgaben, die damit erreicht werden können. Besondere Aufmerksamkeit wird auf Bildinmaling und Bildausweitung gelegt, wobei sowohl frühere traditionelle kontextgesteuerte als auch aktuelle multimodale bedingte Methoden untersucht werden.
Um die Leistung textgesteuerter Bildbearbeitungsalgorithmen weiter zu bewerten, wird ein systematischer Benchmark namens EditEval vorgeschlagen, der eine innovative Metrik, den LMM-Score, verwendet. Schließlich werden aktuelle Einschränkungen aufgezeigt und mögliche zukünftige Forschungsrichtungen skizziert.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Yi Huang,Jia... kl. arxiv.org 03-19-2024
https://arxiv.org/pdf/2402.17525.pdfDybere Forespørgsler