Diese Studie bietet einen umfassenden Überblick über bestehende Methoden, die Diffusionsmodelle für die Bildbearbeitung verwenden. Sie untersucht die theoretischen und praktischen Aspekte dieses Forschungsfelds eingehend.
Die Methoden werden aus mehreren Perspektiven analysiert und kategorisiert, einschließlich der Lernstrategien, der Eingabebedingungen und der vielfältigen Bearbeitungsaufgaben, die damit erreicht werden können. Besondere Aufmerksamkeit wird auf Bildinmaling und Bildausweitung gelegt, wobei sowohl frühere traditionelle kontextgesteuerte als auch aktuelle multimodale bedingte Methoden untersucht werden.
Um die Leistung textgesteuerter Bildbearbeitungsalgorithmen weiter zu bewerten, wird ein systematischer Benchmark namens EditEval vorgeschlagen, der eine innovative Metrik, den LMM-Score, verwendet. Schließlich werden aktuelle Einschränkungen aufgezeigt und mögliche zukünftige Forschungsrichtungen skizziert.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Yi Huang,Jia... a las arxiv.org 03-19-2024
https://arxiv.org/pdf/2402.17525.pdfConsultas más profundas