這篇研究論文介紹了 DDIL(Diffusion Distillation with Imitation Learning),這是一個用於蒸餾擴散模型的新框架,旨在解決多步蒸餾模型中出現的協變量偏移問題。
本研究旨在解決多步蒸餾擴散模型中生成品質下降的問題,特別是在降低去噪步驟數量的情況下。作者將協變量偏移確定為導致效能不佳的主要因素,並提出 DDIL 來解決這個問題。
DDIL 框架受到模仿學習中 DAgger 演算法的啟發,透過結合三個來源的潛在變數樣本來增強訓練分佈:(1) 數據集的前向擴散;(2) 學生模型的後向軌跡(展開的潛變量);(3) 教師模型的後向軌跡。這種方法結合了以下優點:
此外,該研究還採用了反射擴散公式進行蒸餾,並證明了其在不同蒸餾方法中都能提高效能和訓練穩定性。
這項研究為解決擴散模型蒸餾中的關鍵挑戰(協變量偏移)提供了一種新穎且有效的方法。透過提高訓練分佈的品質,DDIL 促進了更高效、更穩定的蒸餾過程,從而產生了品質和多樣性更高的生成樣本。
該研究主要集中在文字到圖像的生成任務上。未來的工作可以探索 DDIL 在其他生成建模任務中的應用,例如音訊生成或影片生成。此外,研究更先進的採樣策略以進一步增強 DDIL 框架也將是有益的。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Risheek Garr... lúc arxiv.org 10-17-2024
https://arxiv.org/pdf/2410.11971.pdfYêu cầu sâu hơn