Основні поняття
本文提出了一種名為 AdaptiveDiffusion 的新型 diffusion 模型加速方法,該方法可以根據輸入提示自適應地減少去噪過程中的噪聲預測步驟,從而在保持生成質量的同時顯著提高效率。
論文概述
本論文提出了一種名為 AdaptiveDiffusion 的新型 diffusion 模型加速方法,旨在解決現有去噪技術計算成本高、延遲大的問題。AdaptiveDiffusion 的核心思想是根據輸入提示自適應地減少去噪過程中的噪聲預測步驟數,同時保持最終輸出品質。
研究背景
Diffusion 模型在高品質圖像和視頻合成方面取得了巨大成功,但其去噪技術通常基於逐步噪聲預測,計算量大,導致交互應用程序的延遲過高。現有的 diffusion 模型加速方法主要集中在減少採樣步驟、優化模型架構和並行推理三個方面,但大多數策略都是為所有提示數據設計的固定加速模式。
研究方法
AdaptiveDiffusion 基於以下觀察結果:不同提示可能需要不同步驟的噪聲預測才能獲得與原始去噪過程相同的內容。因此,有必要探索一種提示自適應加速範式,以考慮不同提示之間的去噪差異。
AdaptiveDiffusion 的關鍵見解是噪聲預測的冗餘度與時間相鄰潛在變量之間的三階微分分佈高度相關。這種關係可用於設計有效的跳步策略,允許我們決定何時重用先前的噪聲預測結果以及何時繼續進行新的計算。
具體而言,AdaptiveDiffusion 使用三階潛在差異來評估每個時間步長處噪聲預測的冗餘度,反映了策略對輸入信息的依賴性,從而實現了提示自適應加速範式。
實驗結果
在圖像和視頻 diffusion 模型上進行的大量實驗證明了 AdaptiveDiffusion 的有效性。結果表明,該方法可以在去噪過程中實現高達 5.6 倍的加速,同時更好地保持生成質量。
主要貢獻
本論文的主要貢獻有三方面:
據我們所知,該方法是第一個從噪聲預測的步數減少方面探索自適應 diffusion 加速的方法,該方法為不同的提示制定了不同的跳步路徑。
提出了一種新的方法,即 AdaptiveDiffusion,它開發了一種即插即用的標準來決定是應該從先前的噪聲結果中推斷還是重用噪聲預測。
在各種 diffusion 模型和任務上進行的大量實驗證明了 AdaptiveDiffusion 在效率、性能和泛化能力之間的優越性。
總結
AdaptiveDiffusion 代表了自適應高效 diffusion 的重大進步,為解決與順序去噪技術相關的高計算成本挑戰提供了一種實用的解決方案。
Статистика
AdaptiveDiffusion 在 SD-v1-5 模型上使用 DPM-Solver++ 採樣器時,平均 LPIPS 達到 0.092,生成圖像質量幾乎無損。
AdaptiveDiffusion 在 SDXL 模型上使用 Euler 採樣器時,平均加速比達到 2.01 倍。
在 ImageNet 數據集上,AdaptiveDiffusion 在 LDM-4 模型上實現了近 5.6 倍的加速,同時保持了高生成質量。
在視頻生成任務中,AdaptiveDiffusion 在 I2VGen-XL 模型上實現了 2.1 倍的加速,在 ModelScopeT2V 模型上實現了 1.46 倍的加速,同時保持了幀級和時序上的高生成質量。