核心概念
DriVLMe 透過結合模擬環境中的具身體驗和真實人類對話中的社交體驗,增強基於大型語言模型的自動駕駛代理的能力,使其能夠更有效地理解人類指令、應對突發狀況並進行自然語言交流。
本研究旨在探討如何利用大型語言模型 (LLM) 開發能夠與人類駕駛員進行自然且有效的溝通之自動駕駛代理。
研究團隊開發了 DriVLMe,這是一種基於視覺語言模型的自動駕駛代理,它結合了兩種學習方式:
具身體驗: 在 CARLA 模擬駕駛環境中進行訓練,學習感知環境、執行導航動作並應對突發狀況。
社交體驗: 學習真實人類對話數據集 (SDN),以理解人類駕駛指令和對話模式。
DriVLMe 的模型架構包含三個主要部分:
視覺編碼器: 使用預先訓練的 CLIP 模型從模擬駕駛環境中提取視覺特徵。
路線規劃模組: 根據地圖資訊和目標地標,規劃最短路徑並生成導航指令。
大型語言模型: 接收視覺特徵、對話歷史、動作歷史和路線規劃結果,生成對話回應和駕駛決策。