核心概念
本文提出了一種名為 HiP-POMDP 的新形式主義,用於在非靜態環境中學習適應性世界模型和行為策略,並證明了該方法在各種非靜態強化學習基準測試中學習魯棒策略的有效性。
參考資訊:
Gospodinov, E., Shaj, V., Becker, P., Geyer, S., & Neumann, G. (2024). Adaptive World Models: Learning Behaviors by Latent Imagination Under Non-Stationarity. Advances in Neural Information Processing Systems, 38. arXiv:2411.01342v1 [cs.LG]
研究目標:
本研究旨在解決現有基於模型的強化學習(MBRL)方法在處理非靜態環境(環境隨時間推移而變化)方面的局限性。具體而言,研究提出了一種新的形式主義,稱為 HiP-POMDP,用於在潛在狀態空間中學習適應性世界模型和行為策略。
方法:
HiP-POMDP 將非靜態性建模為一個額外的因果潛在變數,並採用兩階段方法進行學習和推理:
潛在任務抽象的推論: HiP-POMDP 使用一個上下文集緩衝區來存儲最近的環境交互信息,並利用貝葉斯聚合方法從中推斷出潛在的任務表示。
適應性表示和行為的學習: 基於推斷出的任務表示,HiP-POMDP 學習一個適應性的生成世界模型,該模型可以根據想像的動作對世界狀態進行反事實預測。同時,HiP-POMDP 還學習一個上下文敏感的行動者-評論者策略,該策略根據推斷出的任務表示選擇動作以最大化預期累積獎勵。
主要發現:
HiP-POMDP 在各種非靜態基準測試中,包括動態變化(例如,關節擾動、身體質量慣性變化)、目標變化(例如,目標速度變化、多任務學習)以及兩者的組合,都取得了顯著的性能提升。
與現有的基於 POMDP 的方法相比,HiP-POMDP 能够更好地適應環境變化,並學習更魯棒的策略。
HiP-POMDP 學習的潛在狀態空間表示比基於 POMDP 的方法學習的表示更結構化、更易於理解。
主要結論:
HiP-POMDP 為在非靜態環境中學習適應性世界模型和行為策略提供了一種有效且可擴展的方法。這種方法在機器人技術、自動駕駛和個性化醫療等領域具有廣泛的應用前景。
意義:
本研究通過提出 HiP-POMDP 形式主義,為解決強化學習中的非靜態性問題提供了一種新的思路。該方法的有效性已在多個基準測試中得到驗證,並為開發能夠適應動態環境的智能體奠定了基礎。
局限性和未來研究方向:
本研究主要關注於低維狀態空間中的非靜態性問題。未來研究可以探索如何將 HiP-POMDP 擴展到高維感官輸入(例如,圖像、點雲)的場景中。
本研究假設環境變化是不可知的。未來研究可以探討如何利用環境變化的先驗知識來進一步提高 HiP-POMDP 的性能。
統計資料
作者評估了兩種競爭形式主義(POMDP 和 HiP-POMDP)在處理偶發評估設置中的非靜態性的性能。
作者關注三種類型的非靜態性:(1)傳遞函數的變化,(2)獎勵的變化,以及(3)兩者的組合。
對於每一種類型,作者進一步考慮了兩種情況:• 情節間非靜態性:變化在一個情節內保持固定,但在不同情節之間變化。• 情節內非靜態性:非靜態變化可能發生在單個情節內。
在所有實驗中,本體感受傳感器被用作觀察來源。
作者將 Dreamer [8] 作為 POMDP 形式主義的基準。
對於 HiP-POMDP,作者通過結合潛在任務抽象來修改 Dreamer,以確保兩種方法之間的公平比較。
此外,作者還包括了一個“預言機”基準,其中假設任務是直接觀察到的。
作者在所有實驗中評估代理,方法是計算每 25 個時期 10 個軌跡的平均回報,每個時期都有隨機抽樣的環境變化。
性能曲線是通過對 10 個不同隨機種子的結果進行平均來計算的。
HiP-POMDP 代理在具有挑戰性的情節內變化下,甚至與預言機競爭,都能帶來穩健的性能提升。
在所有情況下,vanilla POMDP 代理都無法處理目標變化。
另一方面,具有推斷任務抽象的 HiP-POMDP 代理在很大程度上解決了這個問題。
與 POMDP 設置不同,HiP-POMDP 中的任務抽象塑造了一個更結構化和解耦的潛在空間,該空間與推斷的任務一致。
在 HiP-POMDP 設置中,在潛在任務空間表示 (l) 中也觀察到這種解耦。