Centrala begrepp
DDIL 透過結合資料分佈和學生模型預測分佈來改進訓練分佈,從而解決了多步蒸餾擴散模型中的協變量偏移問題,在保持生成多樣性的同時提高了效率。
Sammanfattning
DDIL:透過模仿學習改進擴散蒸餾技術
這篇研究論文介紹了 DDIL(Diffusion Distillation with Imitation Learning),這是一個用於蒸餾擴散模型的新框架,旨在解決多步蒸餾模型中出現的協變量偏移問題。
研究目標:
本研究旨在解決多步蒸餾擴散模型中生成品質下降的問題,特別是在降低去噪步驟數量的情況下。作者將協變量偏移確定為導致效能不佳的主要因素,並提出 DDIL 來解決這個問題。
方法:
DDIL 框架受到模仿學習中 DAgger 演算法的啟發,透過結合三個來源的潛在變數樣本來增強訓練分佈:(1) 數據集的前向擴散;(2) 學生模型的後向軌跡(展開的潛變量);(3) 教師模型的後向軌跡。這種方法結合了以下優點:
- **保留邊緣資料分佈:**在資料分佈上進行訓練可確保學生模型維持原始資料的固有統計特性,從而保持生成樣本的多樣性。
- **校正協變量偏移:**在後向軌跡上進行訓練使學生模型能夠識別並適應協變量偏移,從而提高分數估計的準確性,尤其是在少量步驟的設定中。
此外,該研究還採用了反射擴散公式進行蒸餾,並證明了其在不同蒸餾方法中都能提高效能和訓練穩定性。
主要發現:
- DDIL 在多種蒸餾技術(包括漸進式蒸餾 (PD)、潛變量一致性蒸餾 (LCM) 和分佈匹配蒸餾 (DMD2))中始終如一地提高了效能。
- 與僅在後向軌跡上進行蒸餾的方法相比,DDIL 生成的樣本更加多樣化,並有效減輕了模式崩潰的問題。
- 透過結合 DDIL 和反射擴散蒸餾公式,可以增強訓練穩定性,並使用更小的批次大小和更少的梯度更新步驟實現強大的效能。
意義:
這項研究為解決擴散模型蒸餾中的關鍵挑戰(協變量偏移)提供了一種新穎且有效的方法。透過提高訓練分佈的品質,DDIL 促進了更高效、更穩定的蒸餾過程,從而產生了品質和多樣性更高的生成樣本。
局限性和未來研究方向:
該研究主要集中在文字到圖像的生成任務上。未來的工作可以探索 DDIL 在其他生成建模任務中的應用,例如音訊生成或影片生成。此外,研究更先進的採樣策略以進一步增強 DDIL 框架也將是有益的。
Statistik
4 步驟的 PD + DDIL 模型在 MS-COCO 2017-5K 驗證集上的 FID 為 22.42,CLIP 分數為 0.302。
4 步驟的 LCM + DDIL 模型在 MS-COCO 2017-5K 驗證集上的 FID 為 22.86,CLIP 分數為 0.309。
使用 DDIL 的 DMD2 在 MS-COCO 2017-5K 驗證集上實現了與使用較大批次大小和更長訓練時間的 DMD2 相當的結果。
Citat
"我們將協變量偏移確定為影響多步蒸餾擴散模型生成品質的關鍵因素。"
"DDIL 透過結合資料分佈和學生模型預測分佈來改進訓練分佈。"
"我們證明了 DDIL 始終如一地改進了不同的蒸餾技術,例如漸進式蒸餾 (PD)、潛變量一致性蒸餾 (LCM) 和分佈匹配蒸餾 (DMD2)。"