Diese Studie bietet einen umfassenden Überblick über bestehende Methoden, die Diffusionsmodelle für die Bildbearbeitung verwenden. Sie untersucht die theoretischen und praktischen Aspekte dieses Forschungsfelds eingehend.
Die Methoden werden aus mehreren Perspektiven analysiert und kategorisiert, einschließlich der Lernstrategien, der Eingabebedingungen und der vielfältigen Bearbeitungsaufgaben, die damit erreicht werden können. Besondere Aufmerksamkeit wird auf Bildinmaling und Bildausweitung gelegt, wobei sowohl frühere traditionelle kontextgesteuerte als auch aktuelle multimodale bedingte Methoden untersucht werden.
Um die Leistung textgesteuerter Bildbearbeitungsalgorithmen weiter zu bewerten, wird ein systematischer Benchmark namens EditEval vorgeschlagen, der eine innovative Metrik, den LMM-Score, verwendet. Schließlich werden aktuelle Einschränkungen aufgezeigt und mögliche zukünftige Forschungsrichtungen skizziert.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Yi Huang,Jia... pada arxiv.org 03-19-2024
https://arxiv.org/pdf/2402.17525.pdfPertanyaan yang Lebih Dalam