Der Artikel stellt die Mansformer-Architektur vor, eine effiziente Transformer-basierte Lösung für die Bildentschleierung.
Zunächst werden vier Arten von Selbstaufmerksamkeit entworfen, deren Komplexität linear zur Bildauflösung ist: lokale räumliche Aufmerksamkeit, lokale Kanalaufmerksamkeit, globale räumliche Aufmerksamkeit und globale Kanalaufmerksamkeit. Diese Aufmerksamkeitsmechanismen ergänzen sich gegenseitig, um sowohl lokale als auch globale Zusammenhänge zu erfassen.
Darüber hinaus wird eine gated-dconv MLP-Komponente vorgestellt, die die übliche zweistufige Transformer-Architektur in eine einstufige Architektur integriert. Experimente zeigen, dass diese einstufige Architektur bei ähnlichen Rechenkosten bessere Ergebnisse liefert als die zweistufige Variante.
Die Mansformer-Architektur wird zunächst für die Bildentschleierung trainiert und evaluiert. Dabei erzielt sie state-of-the-art-Ergebnisse auf gängigen Benchmarks wie GoPro und HIDE. Darüber hinaus zeigt sich, dass das Modell auch für andere Bildverarbeitungsaufgaben wie Bildentverzerrung, Bildentrauschung und Regentropfenentfernung hervorragende Leistungen erbringt.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Pin-Hung Kuo... um arxiv.org 04-10-2024
https://arxiv.org/pdf/2404.06135.pdfTiefere Fragen