核心概念
本文提出了一種基於對偶譜表示法的離線策略評估演算法 SpectralDICE,透過線性表示 Q 函數和狀態-動作佔用率修正比例,解決了傳統 DICE 估計器在神經網路實現中遇到的非凸非凹鞍點優化難題,並實現了高效的歷史數據利用。
Yang Hu, Tianyi Chen, Na Li, Kai Wang, and Bo Dai. (2024). Primal-Dual Spectral Representation for Off-policy Evaluation. arXiv preprint arXiv:2410.17538.
本研究旨在解決離線強化學習中策略評估的效率和實用性問題,特別是克服傳統 DICE 估計器在神經網路實現中遇到的非凸非凹鞍點優化難題。