核心概念
本文提出了一種非單一探索方法的離線到線上強化學習模型,通過協調離線策略的利用能力和線上策略的探索能力,在不修改離線策略的情況下,提升了模型在不同下游任務中的靈活性和泛化能力。
摘要
文獻綜述
- 離線強化學習利用預先收集的數據集進行訓練,解決了線上強化學習成本高、風險大的問題,但仍面臨著數據集與下游任務分佈不匹配的挑戰。
- 離線到線上強化學習結合了離線和線上強化學習的優勢,利用預先訓練的離線策略來加速線上策略的學習過程。
- 現有的離線到線上強化學習方法,如策略擴展(PEX),在探索和學習過程中過度依賴於離線策略,導致線上策略學習不足。
研究方法
- 本文提出了一種非單一探索方法的離線到線上強化學習模型,該模型包含一個離線策略和一個線上策略,分別專注於利用和探索。
- 模型採用模式切換控制器(Homeo)來選擇激活哪個策略。Homeo 通過監控離線策略的值函數在預定義時間內的變化來判斷當前離線策略的可靠性,並據此決定是否切換到線上策略進行探索。
- 線上策略在訓練初期主要進行探索,隨著訓練的進行,逐漸轉變為以利用為導向的策略。
實驗結果
- 在 Antmaze 環境和 HalfCheetah、Hopper、Walker 等環境中,本文提出的模型在大部分任務中都優於或與 PEX 持平。
- 與 PEX 相比,本文模型的線上策略執行次數更多,表明該模型更加重視線上策略的訓練,從而彌補了離線策略知識有限的不足。
- 儘管離線策略的執行次數較少,但本文模型對離線策略的利用效率更高,有效提升了模型的整體性能。
總結
本文提出了一種基於非單一探索方法的離線到線上強化學習模型,通過協調離線策略和線上策略的執行時機和持續時間,在不修改離線策略的情況下,提升了模型在下游任務中的靈活性和泛化能力。
統計資料
在 Antmaze 環境中,除了 'antmaze-medium-play' 任務外,本文提出的模型在其他任務中的性能都優於或與 PEX 持平。
在 HalfCheetah、Hopper 和 Walker 環境中,除了 'halfcheetah-medium' 任務外,本文提出的模型在其他任務中的性能都顯著優於 PEX。
與 PEX 相比,本文模型的線上策略執行次數更多,離線策略執行次數更少。
引述
"Therefore, our research focuses on how to reconcile the advantages of the offline policy (exploitation) and the online policy (exploration) in offline-to-online RL, without compromising the integrity of the offline policy, to enhance overall agent performance."
"Our model adopts a heterogeneous temporal structure for mode-switching exploration."
"The modulating and mode-switching characteristics of our model provide a robust adaptive capacity for various downstream tasks, a feature absent in PEX."