核心概念
局部線性是連續狀態和動作空間中馬可夫決策過程(MDP)實現有效無悔強化學習的關鍵特性。
標題: 局部線性:連續 MDP 中無悔強化學習的關鍵
作者: Davide Maran, Alberto Maria Metelli, Matteo Papini, Marcello Restelli
機構: Politecnico di Milano, Milan, Italy
發表: NeurIPS 2024 (預印本:arXiv:2410.24071v1 [cs.LG] 31 Oct 2024)
本研究旨在解決連續狀態和動作空間中強化學習(RL)的無悔特性問題,特別是針對現有解決方案的局限性,例如嚴苛的假設、特定情況下無效的界限,以及對時間範圍的指數依賴性。