核心概念
本文提出了一種名為 PatchScaler 的新型高效圖像超分辨率方法,該方法通過自適應地調整不同圖像區域的採樣過程,在保持高還原品質的同時顯著加快了推理速度。
論文概述
本論文提出了一種名為 PatchScaler 的新型圖像超分辨率方法,旨在解決基於擴散模型的圖像超分辨率方法推理速度慢的問題。PatchScaler 採用了一種與圖像塊無關的擴散管道,通過自適應地調整不同圖像區域的採樣過程來動態加速推理過程。
主要貢獻
提出了一種新穎的與圖像塊無關的超分辨率管道 PatchScaler,該管道採用圖像塊自適應分組採樣來動態加速採樣過程,從而實現高效的高分辨率圖像還原。
為 PatchScaler 中的圖像塊 Diffusion Transformer (Patch-DiT) 提出了一種有效的紋理提示,通過從通用參考紋理記憶體中檢索高品質紋理先驗來提高重建品質。
實驗表明,PatchScaler 在多個數據集上均取得了優於現有超分辨率方法的性能,並且比以前的基於擴散的超分辨率方法效率更高。
方法介紹
PatchScaler 的核心思想是基於以下觀察結果:對圖像的所有區域應用相同的採樣過程是多餘的,因為具有較少結構細節的圖像塊可以用較少的採樣步驟有效地重建,而具有豐富紋理信息的圖像塊則需要更多的採樣步驟。
PatchScaler 的主要組成部分包括:
全局還原模塊 (GRM):用於去除退化(例如噪聲或失真偽影)並捕獲低分辨率輸入中的長距離依賴關係。GRM 生成一個粗略的高分辨率特徵和一個相應的置信度圖,該圖反映了不同區域的重建難度。
圖像塊自適應分組採樣 (PGS):根據量化的置信度圖將粗略的高分辨率特徵動態劃分為圖像塊,並將它們分組到不同的組(即“簡單”、“中等”和“困難”)。PGS 為每個組確定一個最佳中間點和採樣配置,從而實現從粗略高分辨率圖像塊到真實值的捷徑。
圖像塊 Diffusion Transformer (Patch-DiT):作為 PatchScaler 的骨幹,用於從粗略的高分辨率圖像塊中細化精細紋理。
紋理提示:通過從通用參考紋理記憶體中檢索目標圖像塊的高品質紋理先驗,為 Patch-DiT 提供豐富的紋理條件信息。
實驗結果
實驗結果表明,PatchScaler 在合成數據集和真實世界數據集上均取得了優於現有超分辨率方法的性能。與其他基於擴散的超分辨率方法相比,PatchScaler 的推理速度顯著加快。
總結
PatchScaler 是一種新穎且高效的基於擴散的超分辨率方法,它通過自適應地調整不同圖像區域的採樣過程來動態加速推理過程。實驗結果證明了 PatchScaler 在保持高還原品質的同時顯著提高了推理速度。
統計資料
在 ×4 (512 →2048) 超分辨率任務上,PatchScaler 的運行時間僅為 ResShift 的 0.23 倍。
在 RealSet110 數據集上,PatchScaler 在 ManIQA 指標上比次優結果提高了 +0.0204。
將 PGS 和 GRM 應用於 StableSR,ManIQA 指標提高了 +0.1179,MUSIQ 指標提高了 +3.46,推理速度加快了 0.24 倍。