Der Artikel stellt den Multimodalen Prompt Perceiver (MPerceiver) vor, ein neuartiger Ansatz für die multimodale Prompt-Erlernung, der die generativen Priors von Stable Diffusion nutzt, um die Anpassungsfähigkeit, Verallgemeinerbarkeit und Genauigkeit der Bildwiederherstellung zu verbessern.
Der Kern des Ansatzes ist ein Dual-Branch-Modul, das textuelle und visuelle Prompts lernt. Der textuelle Branch verwendet einen Cross-Modal-Adapter (CM-Adapter), um degradationsangepasste Textembeddings als Stable Diffusion-Prompt zu erzeugen. Der visuelle Branch verwendet einen Image Restoration Adapter (IR-Adapter), um multiskalige Detailrepräsentationen als visuelle Prompts zu extrahieren. Beide Prompts werden dynamisch integriert, um die Anpassung an verschiedene, auch unbekannte Degradationen zu ermöglichen.
Darüber hinaus führt MPerceiver ein Detail-Verfeinerungsmodul (DRM) ein, das die Genauigkeit der Wiederherstellung durch direkte Encoder-Decoder-Informationstransformation verbessert.
Umfangreiche Experimente auf 16 Bildwiederherstellungsaufgaben zeigen, dass MPerceiver in Bezug auf Anpassungsfähigkeit, Verallgemeinerbarkeit und Genauigkeit überlegen ist. Insbesondere übertrifft der Ansatz auch spezialisierte Methoden in vielen Aufgaben. Darüber hinaus zeigt MPerceiver nach dem Multitask-Pretraining bemerkenswerte Zero-Shot- und Few-Shot-Fähigkeiten bei ungesehenen Aufgaben.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yuang Ai,Hua... at arxiv.org 03-21-2024
https://arxiv.org/pdf/2312.02918.pdfDeeper Inquiries