核心概念
現有的強化學習算法只注重效能,而忽略了效率,導致決策過程中的計算成本和決策頻率過高。本研究提出了一種名為時間分層架構 (TLA) 的新型強化學習架構,透過結合不同時間尺度的多層策略網絡,實現了效能和效率的平衡。
研究背景
深度強化學習 (DRL) 在學習控制策略方面展現出非凡的能力,但現有研究僅關注在恆定決策頻率下最大化預先定義的環境獎勵,而忽略了效率。生物控制則展現出卓越的效能,同時還能優化計算能量消耗和決策頻率。生物控制系統透過整合不同組件的功能、將控制分佈在多個層級,並在這些層級中納入多種適應性反應時間,來減輕時間延遲、資訊傳輸速度慢和反應時間慢等限制。
現有方法的局限性
現有的強化學習 (RL) 算法缺乏調整時間步長的能力,通常選擇恆定的時間步長以避免在每個狀態下持續優化時間步長的問題。然而,不同的環境具有不同的時間背景,每個環境都需要不同的時間步長才能實現最佳的效能-能量權衡。此外,即使在相同的環境中,最佳時間步長也可能發生變化。
時間分層架構 (TLA)
受生物設計的啟發,本研究提出了時間分層架構 (TLA),這是一種強化學習架構,它將兩個具有不同頻率的不同策略網絡分層,允許 RL 代理透過使用它們的組合在線調整其響應頻率。TLA 具有兩層,慢速層和快速層,它們學習兩種策略,每種策略具有不同的步長,πs 和 πf,其中 s 和 f 分別表示慢速層和快速層。快速層類似於傳統的 RL 代理,可以在每個時間步長觀察和行動,而慢速層只能每 τ 個時間步長觀察和行動一次,其中 τ ≥2 且 τ ∈Z。
決策邊界馬可夫決策過程 (DB-MDP)
為了研究時間步長對能量守恆和效能的影響,本研究引入了決策邊界馬可夫決策過程 (DB-MDP),它是 MDP 的擴展,它限制了代理在每個情節中可以做出的決策數量。這種約束促使代理人節約其決策能量消耗。固定時間步長的 RL 將在 DB-MDP 上產生次優解,甚至完全失敗。
實驗結果
本研究在決策邊界和決策無邊界的環境中評估了 TLA 的效能,包括網格世界和連續控制環境。結果表明,TLA 在決策邊界環境中優於現有的 RL 算法,並且在連續控制環境中,它在使用一小部分計算成本的同時,達到了最先進的效能。
結論
TLA 為決策和能量受限的環境設定了基準,並為未來時間和能量感知人工智慧的研究鋪平了道路。
統計資料
在 Lunar Lander 環境中,TLA、TempoRL 和 TD3-EA 達到了相當的效能。
在 Mountain Car 環境中,TLA 同時優化了平均獎勵和決策,從而優於所有算法。
在 Inverted Pendulum 環境中,訓練後,TLA 幾乎從不激活快速網絡,從而產生了一個時間步長大 10 倍的最優策略。
在 Hopper 環境中,儘管存在重複同步的挑戰,但 TLA 的效能優於 TD3。
在所有測試環境中,TLA 都能以較少的決策實現相當的效能。