核心概念
本文提出了一種名為「基於最大熵逆向增強學習的擴散模型」(DxMI)的新方法,利用基於能量的模型(EBM)作為獎勵函數,在較少的生成步驟下改進擴散模型的樣本品質,並提出了一種新的強化學習演算法「基於動態規劃的擴散模型」(DxDP)來有效地更新 DxMI 中的擴散模型。
摘要
文獻資訊:
Yoon, S., Hwang, H., Kwon, D., Noh, Y.-K., & Park, F. C. (2024). Maximum Entropy Inverse Reinforcement Learning of Diffusion Models with Energy-Based Models. Advances in Neural Information Processing Systems, 38.
研究目標:
本研究旨在解決擴散模型生成速度慢的問題,特別是在生成步驟較少的情況下,如何保持高品質的樣本。
方法:
- DxMI 框架:
- 利用最大熵逆向增強學習(IRL)來訓練擴散模型。
- 使用基於能量的模型(EBM)作為獎勵函數,為擴散模型提供估計的對數密度作為獎勵信號。
- 通過最小化 EBM 和數據分佈之間的散度,訓練 EBM 逼近數據分佈。
- DxDP 演算法:
- 提出了一種新的強化學習演算法「基於動態規劃的擴散模型」(DxDP),解決了在 DxMI 中更新擴散模型的困難。
- 利用最優控制公式和值函數,將原始問題轉化為一個可以使用動態規劃解決的最優控制問題。
- 避免了直接計算邊際熵和反向傳播梯度的問題。
主要發現:
- DxMI 能夠訓練出僅需 4 步或 10 步就能生成高品質樣本的短執行時間擴散模型。
- DxMI 優於現有的蒸餾方法和基於策略梯度的 IRL 方法(如 SFT-PG)。
- DxMI 提供了一種無需 MCMC 即可訓練 EBM 的新方法,可用於訓練強大的基於能量的異常檢測器。
主要結論:
- DxMI 為訓練高效能的短執行時間擴散模型提供了一種有原則的方法。
- DxMI 結合了最大熵 IRL 和動態規劃的優點,在樣本品質和訓練效率方面均有提升。
- DxMI 為訓練 EBM 提供了一種有前景的替代方案,避免了 MCMC 的計算成本和參數敏感性。
研究意義:
本研究揭示了序列決策和生成模型之間的重要聯繫,為這兩個領域的演算法創新和實際應用提供了新的思路。
局限性和未來研究方向:
- DxMI 涉及多個組件的訓練,引入了多個超參數,需要進一步研究如何簡化超參數的選擇。
- DxMI 並不能直接應用於訓練單步生成器,但可以將經過 DxMI 微調的擴散模型蒸餾成單步生成器。
- DxMI 在測試時無法靈活使用不同的生成步驟數 T。
- 由於模型基於深度神經網絡,因此對 DxMI 的直接理論分析具有挑戰性,未來需要進一步研究以解釋實驗結果的理論依據。
統計資料
DxMI 能夠訓練出僅需 4 步或 10 步就能生成高品質樣本的擴散模型。
在 CIFAR-10 圖像生成任務中,DxMI 僅需不到 4 小時即可達到最佳 FID。
在 2D 8 高斯數據集上,當 τ = 0.1 時,DxMI 生成的樣本的 SW 距離比完整 DDPM 模型的樣本更小。
在 MVTec-AD 異常檢測任務中,DxMI 的異常分類和定位性能優於其他基於 EBM 的方法。
引述
"The slow generation in diffusion models can be addressed by employing inverse reinforcement learning (IRL)."
"Our formulation, named Diffusion by Maximum Entropy IRL (DxMI, pronounced "di-by-me"), is a minimax problem that jointly optimizes a diffusion model and an energy-based model (EBM)."
"Our second contribution is Diffusion by Dynamic Programming (DxDP), a novel maximum entropy RL algorithm for updating a diffusion model without the above-mentioned difficulties."