本文研究了流行的時間差分(TD)學習算法在結合尾部平均時的有限時間行為。作者導出了在不需要知道矩陣特徵值的情況下,尾部平均TD迭代的參數誤差的有限時間界限。分析表明,尾部平均TD以最優的O(1/t)速率收斂,無論是在期望還是高概率意義下。此外,作者的界限展示了初始誤差(偏差)的更快衰減率,這比平均所有迭代要好。作者還提出並分析了一種結合正則化的TD變體。分析表明,正則化版本的TD對於具有ill-conditioned特徵的問題很有用。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询