核心概念
AdaFlow 是一種基於流的生成式模仿學習框架,它可以根據狀態的複雜性自適應地調整計算量,從而快速生成動作,同時保持動作的多樣性。
摘要
論文資訊
標題:AdaFlow: Imitation Learning with Variance-Adaptive Flow-Based Policies
作者:Xixi Hu, Bo Liu, Xingchao Liu, Qiang Liu
機構:德州大學奧斯汀分校
研究目標
本研究旨在解決現有模仿學習方法在計算效率和行為多樣性之間的權衡問題,提出一個能夠高效生成多樣化和自適應策略的新型模仿學習算法 AdaFlow。
方法
AdaFlow 基於流的生成式策略,並利用以下關鍵要素實現自適應性:
- 流的特殊性質:對於確定性動作分佈的狀態,流的軌跡為直線,只需一次查詢速度場即可生成預期動作。
- 變異估計神經網絡:用於量化狀態的複雜性,並根據訓練損失的變異程度來估計動作分佈的確定性。
- 變異自適應 ODE 求解器:根據變異估計調整步長,在確定性狀態下快速生成動作,在非確定性狀態下進行更精確的模擬。
主要發現
- AdaFlow 在多個基準測試中,包括導航和機器人操作任務,均取得了優於現有方法的成功率,同時顯著降低了推理成本。
- AdaFlow 能夠自適應地調整其推理速度以適應不同的狀態,確保高效且可靠的性能。
- 與需要額外重整流程的 Rectified Flow 相比,AdaFlow 僅利用初始學習的 ODE,保持了較低的訓練和推理成本,並能更準確地生成動作。
結論
AdaFlow 為在真實場景中應用自適應模仿學習方法奠定了堅實的基礎,有效解決了現有模型在計算效率和行為多樣性方面的局限性。
統計資料
AdaFlow 在 RoboMimic 基準測試中平均只需 1.17 次函數求值 (NFE) 即可達到與其他基線方法相當或更高的成功率。
在 LIBERO 基準測試中,AdaFlow 平均只需 1.27 次 NFE 即可在六個廚房任務中取得優於 BC 和 Diffusion Policy 的成功率。