Die Studie untersucht das Problem der Mehrfach-in-Eins-Bildwiederherstellung (MiO-IR), bei dem ein einzelnes Modell mehrere gängige Bildwiederherstellungsaufgaben wie Superauflösung, Entunschärfung, Entrauschung, JPEG-Artefakt-Entfernung, Entsättigung, Entnebelung und Aufhellung bewältigen soll.
Die Autoren identifizieren zwei Hauptherausforderungen bei MiO-IR: die Optimierung verschiedener Ziele und die Anpassung an mehrere Aufgaben. Um diese Herausforderungen anzugehen, schlagen sie zwei einfache, aber effektive Strategien vor:
Sequenzielles Lernen: Das Netzwerk lernt die einzelnen Aufgaben nacheinander, anstatt sie zu vermischen. Dies führt zu einer stabileren Optimierung und einer Leistungssteigerung von durchschnittlich 0,29/0,85 dB für SRResNet/SwinIR über die sieben Aufgaben.
Prompt-Lernen: Das Netzwerk verwendet zusätzliche Eingaben oder extrahiert dynamische visuelle Prompts aus den Eingabebildern, um die spezifische Aufgabe besser zu verstehen und die Rekonstruktion anzupassen. Das explizite Prompt-Lernen verbessert die durchschnittliche PSNR um 0,84/1,21 dB für SRResNet/SwinIR, während das adaptive Prompt-Lernen eine Verbesserung von 0,24/0,95 dB erzielt.
Die beiden Strategien ergänzen sich gegenseitig und können die Leistung sowohl von CNN- als auch von Transformer-Netzwerken deutlich verbessern, sowohl auf in-Verteilungs- als auch auf out-of-Verteilungstestdatensätzen. Die Strategien können auch den aktuellen Stand der Technik, PromptIR, mit nur 75% seiner Parameter um 1,1 dB verbessern.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문