Core Concepts
Das vorgeschlagene Netzwerk zur Bildsuper-Auflösung (ESTN) verbessert die Leistung des Swin-Transformer-Modells durch eine alternative Aggregation lokaler und globaler Merkmale. Dadurch wird die nichtlineare Abbildungsfähigkeit des Netzwerks erhöht und eine flexiblere räumliche Langzeitabhängigkeit der Merkmale ermöglicht.
Abstract
Das Papier stellt ein Netzwerk zur Bildsuper-Auflösung (ESTN) vor, das auf einem verbesserten Swin-Transformer-Modul mit alternierenden lokalen und globalen Merkmalsaggregationen basiert.
In der lokalen Merkmalsaggregationsphase wird eine Verschiebungskonvolution eingeführt, um die Wechselwirkung zwischen lokalen räumlichen und Kanalinformationen zu realisieren. In der globalen Merkmalsaggregationsphase wird ein blockdünnes globales Wahrnehmungsmodul (BSGM) eingeführt, um eine große Empfangsfeldfähigkeit zu erreichen. Außerdem wird ein Mehrskalen-Selbstaufmerksamkeitsmodul (W-MSSA) und ein niedrigparametriges residuales Kanalaufmerksamkeitsmodul (LRCAB) eingeführt, um Informationen auf verschiedenen Skalen zu aggregieren.
Die Experimente zeigen, dass das vorgeschlagene ESTN-Netzwerk die Leistung anderer State-of-the-Art-Netzwerke zur Bildsuper-Auflösung übertrifft. Darüber hinaus wird die lokale Attributionskarte (LAM) verwendet, um die Rezeptivfelder des ESTN-Netzwerks zu visualisieren und zu analysieren.
Stats
Das vorgeschlagene ESTN-Netzwerk enthält nur 863.000 Parameter für einen 4-fachen Upscaling, was deutlich weniger ist als andere Transformer-basierte Netzwerke.
Das ESTN-Netzwerk erreicht bei 4-fachem Upscaling auf dem Manga109-Datensatz einen PSNR-Wert von 31,13 dB, was 0,21 dB höher ist als andere Transformer-basierte Netzwerke.
Quotes
"Das vorgeschlagene Netzwerk zur Bildsuper-Auflösung (ESTN) verbessert die Leistung des Swin-Transformer-Modells durch eine alternative Aggregation lokaler und globaler Merkmale."
"Die Experimente zeigen, dass das vorgeschlagene ESTN-Netzwerk die Leistung anderer State-of-the-Art-Netzwerke zur Bildsuper-Auflösung übertrifft."