核心概念
提出了一種名為DiT-SR的高效擴散轉換器架構,可從頭開始訓練,在性能上與基於先驗的方法相媲美。該架構融合了U型全局架構和各向同性設計,有效地重新分配計算資源到關鍵的高分辨率層,從而大幅提升性能。此外,我們提出了一種高效且有效的頻率自適應時間步調節模塊AdaFM,增強了擴散模型在不同時間步上強調特定頻率信息的能力。
摘要
本文提出了一種名為DiT-SR的高效擴散轉換器架構,用於圖像超分辨率任務。
- 整體架構:
- 採用U型編碼-解碼全局框架,但在不同階段使用各向同性的轉換器塊設計。
- 這種設計有助於多尺度分層特徵提取,並通過將計算資源重新分配到關鍵的高分辨率層來提升模型性能。
- 頻率自適應時間步調節:
- 觀察到擴散模型在不同去噪階段關注不同的頻率成分。
- 提出AdaFM模塊,在頻域內注入時間步,自適應地重新加權不同頻率成分,增強模型在不同時間步強調特定頻率的能力。
- AdaFM相比常用的AdaLN,參數量大幅減少,同時提升了性能。
- 實驗結果:
- 在真實世界數據集上,DiT-SR顯著優於現有從頭開始訓練的擴散方法,甚至超越了一些基於先驗的方法,但參數量只有後者的5%。
- 在合成數據集上,DiT-SR也取得了出色的表現。
總之,本文提出了一種高效的擴散轉換器架構DiT-SR,在圖像超分辨率任務上取得了卓越的性能,為從頭開始訓練的擴散模型帶來了新的突破。
統計資料
圖像超分辨率任務中,擴散模型在不同去噪階段關注的頻率成分有所不同:
在早期階段,模型主要生成低頻成分,對應圖像的整體結構。
在後期階段,模型逐步生成高頻成分,對應圖像的細節紋理。
引述
"提出了一種名為DiT-SR的高效擴散轉換器架構,可從頭開始訓練,在性能上與基於先驗的方法相媲美。"
"提出了一種高效且有效的頻率自適應時間步調節模塊AdaFM,增強了擴散模型在不同時間步上強調特定頻率信息的能力。"