核心概念
本文提出了Mamba決策制定者(MambaDM),這是一種新穎的行動預測器,旨在捕捉多尺度特徵並更好地理解強化學習軌跡中的相關性。MambaDM利用獨特的全局-局部融合Mamba(GLoMa)混合模塊,巧妙地整合了輸入序列的全局和局部特徵。
摘要
本文提出了Mamba決策制定者(MambaDM),這是一種新穎的行動預測器,旨在捕捉多尺度特徵並更好地理解強化學習軌跡中的相關性。
首先,作者指出強化學習軌跡與常規序列(如文本或音頻)存在兩個獨特的特點:(1)局部相關性,即下一個狀態僅取決於當前狀態和動作;(2)全局相關性,即每個時間步的特徵與長期歷史信息相關。
為了有效地捕捉這些特點,作者提出了GLoMa模塊,它包含全局分支和局部分支。全局分支提取軌跡中的全局信息,而局部分支則關注基於馬爾可夫決策過程(MDP)的局部信息。這種設計確保同時利用全局和局部特徵,以實現最佳性能。
此外,作者還探討了MambaDM的擴展規律。與自然語言處理(NLP)中觀察到的規律不同,實驗結果表明,增加模型大小並不能顯著提高性能,但增加數據集大小可以帶來顯著的性能提升。這表明在強化學習任務中,關注獲取更大更多樣的數據集可能是一個更有效的策略,而不是單純增加模型大小。
最後,作者通過可視化分析展示了MambaDM在捕捉短期和長期依賴方面的能力,進一步支持了所提出模塊的可靠性。總的來說,MambaDM為強化學習中的序列建模提供了一種有前景的替代方案,為未來的高效和可靠決策系統奠定了基礎。
統計資料
強化學習軌跡具有局部相關性,即下一個狀態僅取決於當前狀態和動作。
強化學習軌跡還具有全局相關性,即每個時間步的特徵與長期歷史信息相關。
引述
"RL trajectories possess unique properties to be distinguished from the conventional sequence (e.g., text or audio): (1) local correlation, where the next states in RL are theoretically determined solely by current states and actions based on the Markov Decision Process (MDP), and (2) global correlation, where each step's features are related to long-term historical information due to the time-continuous nature of trajectories."
"Our findings indicate that MambaDM does not exhibit NLP-like scaling behaviors in Atari and OpenAI Gym. As we increase the model size, performance fluctuations are observed instead of a clear upward trend. Consequently, MambaDM does not demonstrate a definitive scaling law when scaling the model size. However, our experiments show that increasing the dataset size can significantly improve the model's performance."