Der Artikel stellt die Mansformer-Architektur vor, eine effiziente Transformer-basierte Lösung für die Bildentschleierung.
Zunächst werden vier Arten von Selbstaufmerksamkeit entworfen, deren Komplexität linear zur Bildauflösung ist: lokale räumliche Aufmerksamkeit, lokale Kanalaufmerksamkeit, globale räumliche Aufmerksamkeit und globale Kanalaufmerksamkeit. Diese Aufmerksamkeitsmechanismen ergänzen sich gegenseitig, um sowohl lokale als auch globale Zusammenhänge zu erfassen.
Darüber hinaus wird eine gated-dconv MLP-Komponente vorgestellt, die die übliche zweistufige Transformer-Architektur in eine einstufige Architektur integriert. Experimente zeigen, dass diese einstufige Architektur bei ähnlichen Rechenkosten bessere Ergebnisse liefert als die zweistufige Variante.
Die Mansformer-Architektur wird zunächst für die Bildentschleierung trainiert und evaluiert. Dabei erzielt sie state-of-the-art-Ergebnisse auf gängigen Benchmarks wie GoPro und HIDE. Darüber hinaus zeigt sich, dass das Modell auch für andere Bildverarbeitungsaufgaben wie Bildentverzerrung, Bildentrauschung und Regentropfenentfernung hervorragende Leistungen erbringt.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések