本研究論文題為「基於語言驅動的策略蒸餾方法,用於多智能體強化學習中的協同駕駛」,探討了如何利用大型語言模型 (LLM) 來提升多智能體強化學習 (MARL) 在協同駕駛任務中的學習效率和性能。
協同駕駛技術是自動駕駛汽車發展的關鍵,它允許多輛車輛相互通信和協作,從而提高交通效率和安全性。然而,現有的協同決策方法在場景適用性、決策效率和安全性方面仍面臨諸多挑戰。
為了解決這些挑戰,本文提出了一種名為 LDPD 的語言驅動策略蒸餾框架。該框架由一個基於 LLM 的教師智能體和多個基於 MARL 的學生智能體組成。
教師智能體負責接收來自學生智能體的觀察信息,並利用其強大的零樣本學習和推理能力做出專家級的決策。教師智能體包含以下模塊:
學生智能體由多個小型策略網絡組成,每個網絡負責控制一輛自動駕駛汽車。學生智能體通過模仿學習和策略梯度更新來學習教師智能體的決策策略。
在模擬的匝道合流場景中進行了實驗,結果表明,與其他 MARL 基線方法相比,LDPD 框架能夠顯著提高學生智能體的學習效率和整體性能。
LDPD 框架提供了一種有效的途徑,可以將 LLM 的世界知識遷移到 MARL 智能體,從而提高協同駕駛的性能和安全性。
未來研究方向包括:
翻譯成其他語言
從原文內容
arxiv.org
深入探究