المفاهيم الأساسية
本文提出了一個視覺分析系統MARLens,用於深入理解基於多智能體強化學習的交通信號控制模型。該系統能夠從多個角度探索和分析模型的決策過程,增強對模型行為的理解。
الملخص
本文提出了一個名為MARLens的視覺分析系統,用於深入理解基於多智能體強化學習(MARL)的交通信號控制(TSC)模型。該系統包括以下主要功能:
-
訓練過程概覽:
- 提供訓練過程中關鍵指標(如獎勵、隊列長度等)的分佈情況,幫助研究人員評估模型性能。
- 允許研究人員快速定位感興趣的訓練情節。
-
策略概覽:
- 展示每個智能體在不同時間段的策略分佈,幫助理解智能體的決策過程。
- 分析不同智能體之間的相互影響,揭示它們的協作和貢獻。
-
決策過程分析:
- 為每個智能體提供狀態、行動和指標的可視化總結,支持對個體行為的深入理解。
- 利用決策樹和SHAP分析,解釋智能體的決策規則,揭示狀態和行動之間的關係。
-
仿真回放:
- 支持回放特定訓練情節或時間步,輔助研究人員分析模型在特定情境下的行為。
通過三個案例研究、專家訪談和用戶研究,驗證了MARLens在增強對MARL-based TSC模型理解方面的有效性和實用性。
الإحصائيات
在第一個交通流階段,每小時車輛流量為西東方向1800輛,南北方向0輛。
在最後一個交通流階段,每小時車輛流量為西東方向600輛,南北方向1800輛。
在第一個訓練情節中,智能體A1的行動頻繁變化,顯示策略的探索性。
在最後一個訓練情節中,智能體A1的行動明確劃分為四個階段,與四個交通流階段相對應。
اقتباسات
"有時智能體變得無法控制,我不知道到底發生了什麼。"
"我們嘗試使用TensorBoard來監控訓練過程,捕捉行動和狀態之間的聯繫,但這種方法無法提供全面的理解。"