核心概念
本文揭示了擴散模型中,用於生成圖像的初始高斯雜訊、生成的圖像樣本,以及透過反向 DDIM 技術獲得的相應潛在編碼之間的關係,發現潛在編碼並非標準的多元高斯分佈,且位於初始雜訊和生成樣本之間的軌跡上,而雜訊和樣本之間的映射關係在訓練初期就已建立。
論文資訊
Łukasz Staniszewski, Łukasz Kuci´nski, Kamil Deja. (2024). There and Back Again: On the relation between noises, images, and their inversions in diffusion models. arXiv preprint arXiv:2410.23530v1.
研究目標
本研究旨在探討去噪擴散概率模型 (DDPM) 中初始高斯雜訊、生成圖像樣本和透過反向 DDIM 技術獲得的潛在編碼之間的關係。
研究方法
本研究採用三種無條件擴散模型:兩個在 CIFAR-10 和 ImageNet 數據集上訓練的像素空間 DDPM,以及一個在 CelebA 數據集上訓練的潛在擴散模型 (LDM)。
使用 DDIM 採樣器從這些模型中進行採樣,並使用 T = 100 個擴散步驟進行採樣和反演為潛在編碼。
透過計算初始雜訊、潛在編碼和生成樣本之間的角度和距離來分析它們之間的空間關係。
研究了雜訊到樣本映射在訓練過程中的變化,以及不同擴散模型的特性如何影響這些關係。
主要發現
透過反向 DDIM 生成的潛在編碼 (ˆxT) 並非標準的多元高斯分佈,而是位於高斯雜訊 (xT) 和生成樣本 (x0) 之間的軌跡 xt 上。
潛在編碼與初始雜訊之間的距離以及它們之間的角度在訓練初期迅速收斂到一個特定值,並在剩餘的訓練過程中保持不變。
可以透過簡單的 L2 距離準確地將初始雜訊分配給生成的圖像,這種行為在擴散模型訓練的初始階段就已出現。
使用 DDIM 採樣器針對特定輸入高斯雜訊生成的圖像,其低頻特徵在訓練初期就已收斂到一定程度,而持續的微調僅改善了圖像的高頻細節。
主要結論
擴散模型訓練的初始階段對於建立初始高斯雜訊、最終生成圖像和反向表示之間的關係至關重要。
反向 DDIM 並沒有真正將圖像轉換為雜訊,而是產生了位於初始雜訊和生成樣本之間的潛在表示。
雜訊和樣本之間的映射關係在訓練初期就已建立,並且在很大程度上不受訓練時長或模型架構的影響。
研究意義
本研究揭示了擴散模型中潛在空間的特性,以及雜訊、圖像和潛在編碼之間的複雜關係,有助於更深入地理解擴散模型的運作機制,並為開發更有效的擴散模型反演和編輯技術提供參考。
研究限制和未來方向
本研究僅關注無條件擴散模型,未來可以進一步研究條件擴散模型中雜訊、圖像和潛在編碼之間的關係。
未來可以探索更精確的擴散模型反演技術,以克服 DDIM 反演的局限性,並獲得更接近標準多元高斯分佈的潛在編碼。
統計資料
使用 DDIM 採樣器,並設定 T = 100 個擴散步驟。
在 CIFAR-10、ImageNet 和 CelebA 數據集上訓練 DDPM 和 LDM 模型。
對於潛在編碼定位實驗,使用 N = 2048 個圖像生成。
對於雜訊到樣本映射過程的調查,指標在 N = 1000 個樣本上取平均值。
CIFAR-10 模型訓練 70 萬步,ImageNet 模型訓練 150 萬步。
使用餘弦退火學習率排程和 4000 個擴散步驟訓練 DDPM 模型,批次大小為 128。
在微調實驗中,指標計算基於 N = 2048 個樣本,並在使用三個不同隨機種子訓練的三個模型的生成結果上取平均值。