Core Concepts
Vision Mambaを活用して、画像スーパーリゾリューションのパフォーマンスを向上させるための新しいネットワークMMAが提案されました。
Abstract
現在の画像スーパーリゾリューション技術とその課題について述べられています。
Vision Mamba(Vim)を使用した新しいネットワークMMAの構造と機能が詳細に説明されています。
実験結果により、MMAは既存の手法よりも優れたパフォーマンスを示すことが示されています。
Introduction
CNNsやViTsなどの技術がSISR分野を革新してきた。
SRパフォーマンス向上のため、残差学習や注意メカニズムなど複数のテクニックが導入されてきた。
Vision Mamba(Vim)によるSRネットワークMMA
Vimを使用したSRネットワークMMAは、3つのレシピで表現される。
MetaFormer-styleブロックへの統合
より大規模かつ幅広いデータセットでの事前トレーニング
補完的な注意メカニズムの適用
実験結果と評価
MMAは競合他社製品よりも優れた性能を発揮し、低メモリおよび計算オーバーヘッドを維持することが示されています。
Stats
Comprehensive experimental analysis reveals that MMA not only achieves competitive or even superior performance compared to state-of-the-art SISR methods but also maintains relatively low memory and computational overheads (e.g., +0.5 dB PSNR elevation on Manga109 dataset with 19.8 M parameters at the scale of ×2).
Quotes
"To address this issue, in this paper, we unleash the representation potential of the modern state space model, i.e., Vision Mamba (Vim), in the context of SISR."
"Comprehensive experimental analysis reveals that MMA not only achieves competitive or even superior performance compared to state-of-the-art SISR methods but also maintains relatively low memory and computational overheads."