核心概念
本文提出了一種名為 S³Mamba 的新型任意尺度超解析度方法,該方法利用可縮放狀態空間模型(SSSM)和尺度感知自注意力機制,從低解析度圖像中構建可縮放的連續表示空間,從而實現高效和高品質的任意尺度超解析度。
摘要
論文資訊
標題:S³Mamba: Arbitrary-Scale Super-Resolution via Scaleable State Space Model
作者:Peizhe Xia, Long Peng, Xin Di, Renjing Pei, Yang Wang, Yang Cao, Zheng-Jun Zha
機構:中國科學技術大學、華為諾亞方舟實驗室
研究目標
本研究旨在解決現有任意尺度超解析度(ASSR)方法在計算複雜度和長距離依賴建模方面的局限性,提出一種能夠高效且有效地重建任意尺度高解析度圖像的新方法。
方法
本研究提出了一種名為 S³Mamba 的新型任意尺度超解析度方法,其核心是可縮放狀態空間模型(SSSM)和尺度感知自注意力機制。
可縮放狀態空間模型(SSSM)
- 首次將狀態空間模型(SSM)引入任意尺度超解析度領域。
- 提出了 SSSM,透過在離散化過程中調製狀態轉移矩陣和採樣步長,實現了具有線性計算複雜度的可縮放和連續表示建模。
尺度感知自注意力機制
- 引入尺度感知自注意力機制,增強網路在不同尺度上感知全局重要特徵的能力。
S³Mamba 架構
- 利用骨幹網路提取低解析度圖像特徵。
- 使用 Unfold 操作聚合局部特徵。
- 利用 SSSM 提取全局特徵。
- 將局部特徵和全局特徵融合,形成新的特徵表示。
- 透過 SSSM 生成全局自注意力圖,並根據當前尺度和坐標自適應地調整高解析度特徵。
- 最終生成高品質的高解析度圖像。
主要發現
- S³Mamba 在真實世界 COZ 數據集和合成 DIV2K 數據集上均取得了最佳性能。
- 與現有方法相比,S³Mamba 能夠更有效地去除真實世界場景中的退化偽影,重建更接近真實圖像的細節和紋理。
- SSSM 在捕捉全局資訊和實現連續表示建模方面優於 MLP 和傳統 SSM。
- 尺度感知自注意力機制和全局特徵提取模組的結合顯著提高了網路的性能。
結論
S³Mamba 是一種用於構建可縮放連續表示空間的有效方法,能夠以豐富的細節重建任意尺度的高解析度圖像。實驗結果表明,該方法不僅取得了最先進的結果,而且還表現出顯著的泛化能力,為任意尺度超解析度開闢了新的道路。
統計資料
在 RDN 基線上,S³Mamba 在 ×3.5 尺度上比現有 SOTA 方法的 PSNR 高 0.06db,SSIM 高 0.004。
在 ×2 尺度上,加入尺度感知自注意力機制後,網路性能提升了 0.07 dB(PSNR)。
在 ×2 尺度上,加入全局特徵提取後,網路性能進一步提升了 0.06 dB(PSNR)。