核心概念
本研究提出了一種"GNN for MBRL"模型,利用基於狀態空間的圖神經網絡和模型驅動強化學習來解決特定的多智能體系統任務,如台球避撞和自動駕駛汽車。
摘要
本研究提出了一種"GNN for MBRL"模型,結合圖神經網絡(GNN)和模型驅動強化學習(MBRL)來解決多智能體系統(MAS)任務。
首先,研究利用GNN模型預測多個智能體的未來狀態和軌跡。然後,應用基於交叉熵方法(CEM)優化的模型預測控制(MPC)來協助自主智能體的動作規劃,成功完成了某些MAS任務。
具體來說,研究首先在基於視覺的多台球避撞環境中設計和驗證了"GNN for MBRL"模型,探索了圖神經網絡和模型驅動強化學習的更多可能性。然後,嘗試將這個有前景的框架轉移到複雜的自動駕駛應用場景。
研究生成了離散和連續的多台球避撞數據集,並在兩種情況下訓練了GNN動力學模型。結果表明,GNN模型在連續和離散環境中都能很好地工作,不需要對原始網絡架構進行任何更改。
最後,研究將訓練好的GNN模型與基於CEM的MPC方法相結合,在連續的多台球避撞環境中進行了實驗。結果顯示,與隨機和真實環境情況相比,"GNN_MPC"模型的性能顯著提高,碰撞率大幅降低,接近於真實環境的結果。
統計資料
多個智能體的狀態和動作會影響整個系統的未來狀態。
預測未來狀態的準確性對於成功完成MAS任務至關重要。
GNN模型可以有效地預測多個智能體的未來狀態和軌跡。
CEM優化的MPC方法可以根據預測的未來狀態,為自主智能體規劃出最優的動作序列。
引述
"本研究提出了一種'GNN for MBRL'模型,利用基於狀態空間的圖神經網絡和模型驅動強化學習來解決特定的多智能體系統任務,如台球避撞和自動駕駛汽車。"
"結果表明,與隨機和真實環境情況相比,'GNN_MPC'模型的性能顯著提高,碰撞率大幅降低,接近於真實環境的結果。"