核心概念
OffLight 是一個新穎的離線多代理強化學習框架,專為解決交通號誌控制中異構行為策略的挑戰而設計,通過結合重要性抽樣、基於回報的優先抽樣和圖神經網路,OffLight 能夠有效地從包含不同控制策略的真實交通數據中學習,並顯著提升交通效率。
摘要
OffLight:一個適用於交通號誌控制的離線多代理強化學習框架
本研究旨在開發一個名為 OffLight 的離線多代理強化學習框架,以解決交通號誌控制中普遍存在的異構行為策略問題。
OffLight 結合了多種技術來應對這些挑戰:
高斯混合模型變分圖自動編碼器 (GMM-VGAE): OffLight 利用 GMM-VGAE 來模擬交通網路中不同的行為策略。GMM 結構允許 OffLight 將潛在空間建模為高斯分佈的混合體,從而能夠表示多個基礎策略。圖注意力網路 (GAT) 和長短期記憶網路 (LSTM) 層的結合使 OffLight 能夠捕捉交通模式的空間和時間動態。
重要性抽樣 (IS): OffLight 整合了重要性抽樣 (IS) 來解決行為策略和目標策略之間的分配轉移問題。IS 根據轉移與目標策略的一致性調整其影響,確保學習演算法強調相關且高質量的數據。
基於回報的優先抽樣 (RBPS): 為了提高樣本效率並加速學習過程,OffLight 採用了基於回報的優先抽樣 (RBPS)。此策略根據累積獎勵對情節進行優先排序,確保學習演算法側重於更成功的交通控制經驗。