Der Artikel stellt den Multimodalen Prompt Perceiver (MPerceiver) vor, ein neuartiger Ansatz für die multimodale Prompt-Erlernung, der die generativen Priors von Stable Diffusion nutzt, um die Anpassungsfähigkeit, Verallgemeinerbarkeit und Genauigkeit der Bildwiederherstellung zu verbessern.
Der Kern des Ansatzes ist ein Dual-Branch-Modul, das textuelle und visuelle Prompts lernt. Der textuelle Branch verwendet einen Cross-Modal-Adapter (CM-Adapter), um degradationsangepasste Textembeddings als Stable Diffusion-Prompt zu erzeugen. Der visuelle Branch verwendet einen Image Restoration Adapter (IR-Adapter), um multiskalige Detailrepräsentationen als visuelle Prompts zu extrahieren. Beide Prompts werden dynamisch integriert, um die Anpassung an verschiedene, auch unbekannte Degradationen zu ermöglichen.
Darüber hinaus führt MPerceiver ein Detail-Verfeinerungsmodul (DRM) ein, das die Genauigkeit der Wiederherstellung durch direkte Encoder-Decoder-Informationstransformation verbessert.
Umfangreiche Experimente auf 16 Bildwiederherstellungsaufgaben zeigen, dass MPerceiver in Bezug auf Anpassungsfähigkeit, Verallgemeinerbarkeit und Genauigkeit überlegen ist. Insbesondere übertrifft der Ansatz auch spezialisierte Methoden in vielen Aufgaben. Darüber hinaus zeigt MPerceiver nach dem Multitask-Pretraining bemerkenswerte Zero-Shot- und Few-Shot-Fähigkeiten bei ungesehenen Aufgaben.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yuang Ai,Hua... lúc arxiv.org 03-21-2024
https://arxiv.org/pdf/2312.02918.pdfYêu cầu sâu hơn