Kernkonzepte
本文提出了一種名為 SEM-Net 的新型圖像修復模型,該模型採用空間增強型狀態空間模型(SSM)有效捕捉圖像中的長距離依賴關係和空間一致性,進而實現高品質的圖像修復。
Zusammenfassung
論文資訊
- 標題:SEM-Net: Efficient Pixel Modelling for image inpainting with Spatially Enhanced SSM
- 作者:Shuang Chen, Haozheng Zhang, Amir Atapour-Abarghouei, Hubert P. H. Shum
- 機構:Durham University
- 發表日期:2024 年 11 月 10 日
研究目標
本研究旨在解決現有圖像修復方法在捕捉長距離依賴關係和空間一致性方面的不足,提出基於空間增強型狀態空間模型的圖像修復模型 SEM-Net,以實現更高品質的圖像修復效果。
方法
SEM-Net 採用編碼器-解碼器結構,並結合了四階段 Snake Mamba Block(SMB)和空間增強型前饋網路(SEFN)。SMB 包含 Snake 雙向建模(SBDM)和位置增強層(PE layer),用於在 SSM 中有效保留像素鄰接關係並增強空間感知能力。SEFN 則通過門控機制,利用 SMB 前後的特徵圖中的空間信息,進一步提升模型的空間感知能力。
主要發現
- SEM-Net 在 CelebA-HQ 和 Places2 兩個數據集上均優於現有的圖像修復方法,尤其在 CelebA-HQ 數據集上表現更為出色。
- 與基於 Transformer 的方法相比,SMB 在捕捉長距離依賴關係方面表現更佳,且計算效率更高。
- SEM-Net 能夠有效地處理高解析度圖像,並具備良好的泛化能力,可應用於其他低級視覺任務,例如圖像去模糊。
主要結論
SEM-Net 是一種基於空間增強型狀態空間模型的有效圖像修復方法,能夠有效捕捉長距離依賴關係和空間一致性,在圖像修復品質和效率方面均有顯著提升。
意義
本研究為圖像修復領域提供了一種基於 SSM 的新型解決方案,展現了 SSM 在圖像處理領域的應用潛力,並為未來開發更高效、高品質的圖像修復模型提供了新的思路。
局限與未來研究方向
- 目前 SEM-Net 主要針對單張圖像修復,未來可進一步探索基於 SMB 的可控圖像修復模型,以處理更複雜的圖像編輯任務。
- 未來可進一步研究如何將 SEM-Net 應用於其他低級視覺任務,例如圖像超分辨率和圖像去噪等。
Statistiken
SEM-Net 在 CelebA-HQ 數據集上,當遮罩比例為 40%-60% 時,PSNR 提升了 0.7743 (2.15%↑),L1 降低了 0.1636 (5.84%↓),LPIPS 降低了 0.0199 (12.70%↓)。
與基於 Transformer 的方法相比,SMB 在處理 256x256 解析度圖像時,能夠保持較高的計算效率,而 SSA 方法則需要降低解析度至 64x64 才能進行訓練。
在 GoPro 數據集上,SEM-Net 的 PSNR 比 Restormer 提升了 0.19。
Zitate
"LRDs are critical in image inpainting, as a lack of LRDs often results in low-quality outcomes due to insufficient context capturing."
"To the best of our knowledge, SEM-Net is the first SSM-based model in this research field."
"Comparative experiments show that SEM-Net outperforms state-of-the-art approaches across two distinct datasets, i.e, CelebA-HQ [22] and Places2 [60]."