核心概念
將推理納入行人意圖估計中,可以顯著提高預測準確性,並增強對自動駕駛系統的信任度。
書目資訊: Khindkar, V., Balasubramanian, V., Arora, C., Subramanian, A., & Jawahar, C.V. (2024). Can Reasons Help Improve Pedestrian Intent Estimation? A Cross-Modal Approach. arXiv preprint arXiv:2411.13302v1.
研究目標: 本研究旨在探討將推理納入行人意圖估計的可行性和有效性,以提高自動駕駛系統對行人行為預測的準確性。
方法: 作者提出了 MINDREAD,這是一種基於跨模態表示學習的多任務學習架構。該架構利用視覺和語言模態,通過注意力機制融合基於視覺的時空特徵和推理文本嵌入,以預測行人意圖及其背後的原因。
主要發現:
MINDREAD 在 PIE++ 數據集上的行人意圖預測準確率和 F1 分數分別比現有最佳方法提高了 5.6% 和 7%。
MINDREAD 在 JAAD 數據集上的行人意圖預測準確率比現有最佳方法提高了 4.4%。
句子級別的文本嵌入(如 Sentence-BERT)在推理預測方面優於詞級別的嵌入(如 GloVe)。
基於 Transformer 的時空特徵建模方法(如 Swin-V2 + Transformer)優於傳統方法(如 VGG + GRU)。
主要結論: 將推理納入行人意圖估計中可以顯著提高預測準確性,並增強對自動駕駛系統的信任度。跨模態表示學習為實現這一目標提供了一種有效的方法。
意義: 這項研究為行人意圖估計領域帶來了新的視角,並為開發更安全、更可靠的自動駕駛系統提供了有價值的見解。
局限性和未來研究方向: 未來研究方向包括探索推理的不確定性估計以及將推理應用於碰撞避免系統。
統計資料
MINDREAD 在 PIE++ 數據集上的行人意圖預測準確率比現有最佳方法提高了 5.6%。
MINDREAD 在 PIE++ 數據集上的行人意圖預測 F1 分數比現有最佳方法提高了 7%。
MINDREAD 在 JAAD 數據集上的行人意圖預測準確率比現有最佳方法提高了 4.4%。
使用 MINDREAD 框架,推理預測準確率提高了 9.4%。
與詞級別的嵌入相比,句子級別的嵌入在推理預測方面表現更佳。
與 VGG + GRU 相比,Swin-V2 + Transformer 在推理預測準確率方面提高了 3.2%。
在意圖準確率和 F1 分數方面,去除跨模態的 MINDREAD 性能分別下降了 4.2% 和 5%。