Kernkonzepte
本文提出了一種名為 DiffusionDrive 的新型生成式駕駛決策模型,用於端到端自動駕駛,該模型採用截斷擴散策略和高效的級聯擴散解碼器,能夠從錨定高斯分佈中對可變數量的樣本進行去噪,從而實時生成多樣化的規劃軌跡。
Zusammenfassung
論文資訊
標題:DiffusionDrive:用於端到端自動駕駛的截斷擴散模型
作者:Bencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang
發表日期:2024 年 11 月 22 日
研究目標
本研究旨在解決現有端到端自動駕駛模型在處理駕駛行為的不確定性和多模態特性方面的局限性,特別是在實時生成多樣化和合理的駕駛動作方面。
方法
研究提出了一種名為 DiffusionDrive 的新型生成式駕駛決策模型,該模型結合了截斷擴散策略和高效的級聯擴散解碼器。
-
截斷擴散策略:不同於從標準高斯分佈中取樣隨機噪聲的傳統擴散策略,截斷擴散策略從錨定高斯分佈開始去噪過程。這種方法將高斯分佈劃分為以先驗錨點為中心的多个子高斯分佈,這些錨點代表了人類駕駛的固定模式。通過截斷擴散過程,模型只需添加少量的高斯噪聲來擴散錨點軌跡,從而減少了去噪步驟,提高了效率。
-
級聯擴散解碼器:為了增強與環境的交互,研究設計了一種基於 Transformer 的高效擴散解碼器。該解碼器不僅與感知模塊提供的結構化查詢交互,還通過稀疏可變形注意力機制與鳥瞰圖 (BEV) 和透視圖 (PV) 特徵交互。此外,還引入了級聯機制,在每個去噪步驟中迭代地細化軌跡重建。
主要發現
- DiffusionDrive 在規劃導向的 NAVSIM 數據集上,使用非反應式模擬和閉環指標進行評估,取得了顯著的性能提升。
- DiffusionDrive 在 NAVSIM 數據集的 navtest 測試集上,使用對齊的 ResNet-34 骨幹網絡,達到了 88.1 PDMS 的分數,顯著優於現有的基於學習的方法。
- 與需要 8192 個錨點的 VADv2 相比,DiffusionDrive 在將錨點數量減少到 20 個的同時,性能提升了 7.2 PDMS。
- DiffusionDrive 也優於採用 VADv2 的基於詞彙表取樣的範例的 Hydra-MDP,PDMS 提升了 5.1。
- 即使與 Hydra-MDP-V8192-W-EP 相比,DiffusionDrive 仍然在 EP 和整體 PDMS 方面分別提升了 3.5 和 1.6,而 Hydra-MDP-V8192-W-EP 是 Hydra-MDP 的一個變體,通過額外的監督訓練以適應 EP 評估指標,並使用加權置信度後處理。
- 與僅在規劃模塊上有所不同的 Transfuser 基線相比,DiffusionDrive 的 PDMS 提升了 4.1,並且在所有子分數上都優於 Transfuser。
主要結論
DiffusionDrive 是一種用於端到端自動駕駛的新型生成式駕駛決策模型,它採用截斷擴散策略和高效的級聯擴散解碼器,能夠實時生成多樣化和合理的駕駛軌跡。實驗結果表明,DiffusionDrive 在規劃質量、運行效率和模式多樣性方面均優於現有方法。
意義
本研究為端到端自動駕駛提供了一種新的思路,即利用生成式擴散模型來解決駕駛決策問題。所提出的截斷擴散策略和級聯擴散解碼器為提高模型效率和性能提供了有效的解決方案。
局限性和未來研究方向
- 本研究主要關注基於視覺的感知輸入,未來可以探索融合其他傳感器信息,例如激光雷達和高清地圖,以進一步提高模型在複雜場景下的性能。
- 未來可以研究如何將 DiffusionDrive 擴展到多智能體場景,例如預測其他車輛和行人的運動軌跡,以實現更安全可靠的自動駕駛。
Statistiken
DiffusionDrive 在 NAVSIM 數據集的 navtest 測試集上達到了 88.1 PDMS 的分數。
與 VADv2 相比,DiffusionDrive 在將錨點數量從 8192 個減少到 20 個的同時,性能提升了 7.2 PDMS。
與 Transfuser 基線相比,DiffusionDrive 的 PDMS 提升了 4.1。
DiffusionDrive 的推理速度為每秒 45 幀 (FPS)。
Zitate
"Unlike existing multi-mode planning approaches, we propose a novel paradigm that leverages powerful generative diffusion models for end-to-end autonomous driving."
"With these innovations, we present DiffusionDrive, a diffusion model for real-time end-to-end autonomous driving."
"Without bells and whistles, DiffusionDrive significantly outperforms previous state-of-the-art methods, achieving a record-breaking 88.1 PDMS on the NAVSIM navtest split with the same backbone, while maintaining real-time performance at 45 FPS on an NVIDIA 4090."