核心概念
本文提出了一種名為 CRS 的新型雜訊時程表,用於訓練和採樣擴散模型,旨在確保在整個擴散過程中,擴散數據的機率分佈變化率保持恆定,從而提高模型性能,尤其在減少反向過程步數方面表現出色。
摘要
論文資訊
- 標題:恆定速率時程表:用於擴散模型中高效訓練和採樣的恆定速率分佈變化
- 作者:Shuntaro Okada, Kenji Doi, Ryota Yoshihashi, Hirokatsu Kataoka & Tomohiro Tanaka
- 機構:LY Corporation, Japan
研究目標
本研究旨在開發一種高效的雜訊時程表,以減少擴散模型反向過程的步數,並提高圖像生成的效率和品質。
方法
- 本文提出了一種名為 CRS 的新型雜訊時程表,其核心概念是確保在整個擴散過程中,擴散數據的機率分佈變化率保持恆定。
- 為了實現 CRS,研究人員首先測量了正向過程中機率分佈的變化率,並將其作為衡量可追蹤性的指標。
- 然後,他們設計了一種雜訊時程表,使得在訓練擴散模型之前,該變化率在整個正向過程中保持恆定。
- CRS 的函數形式是自動確定的,並根據每個數據集和擴散模型的類型進行調整,無需預先定義雜訊時程表函數。
主要發現
- CRS 能夠廣泛提升擴散模型在圖像生成方面的性能,無論數據集、採樣器、函數評估次數或擴散模型類型為何。
- 在潛在空間擴散模型中,高效的雜訊時程表與傳統使用的時程表有很大差異,尤其是在低雜訊區域的 α(t) 變化率方面。
- 與像素空間擴散模型不同,潛在空間擴散模型不需要在低雜訊區域分配過多資源,因為自編碼器負責生成感知表達。
主要結論
- CRS 是一種通用的雜訊時程表定制框架,一旦定義了合適的距離度量來衡量機率分佈變化,就可以系統地獲得相應的雜訊時程表。
- CRS 在潛在空間擴散模型中表現出優於傳統雜訊時程表的性能,但在像素空間擴散模型中,其作為訓練時程表的優勢尚不明顯。
研究意義
本研究提出了一種全新的雜訊時程表設計思路,為提高擴散模型的效率和性能提供了新的方向。
局限與未來研究方向
- CRS 的性能很大程度上取決於距離度量的選擇,未來需要探索更合適的距離度量方法。
- 未來可以進一步研究 CRS 在像素空間擴散模型中的應用,並探索其在其他領域(如音頻和 3D 點雲生成)的應用潛力。
統計資料
本文使用了六個圖像數據集:LSUN (church/bedroom/horse/cat)、ImageNet 和 FFHQ。
在潛在空間擴散模型實驗中,分辨率設置為 256 × 256,並使用 VQ-4 作為自編碼器。
在像素空間擴散模型實驗中,分辨率設置為 256 × 256。
評估指標包括 FID、sFID 以及改進的 precision 和 recall。
生成 50K 個樣本來計算這些指標。
使用 ResNet50 作為特徵模型,在自編碼器嵌入的潛在空間中對 ImageNet 分類進行訓練。
引述
"To reduce the number of steps in the reverse process, we propose a noise schedule that ensures a constant rate of change in the probability distribution of diffused data throughout the diffusion process, which we refer to as CRS."
"CRS is considered a generalized version of Song & Ermon (2020), which determines the noise schedule so that a constant overlap between consecutive probability distributions in the forward process is achieved."
"Through extensive experiments, we confirmed that CRS broadly improves the performance of image generation in diffusion models."