Core Concepts
一般的なパラメータ化ポリシーを使用して、無限の平均報酬制約MDPsに対するPrimal-Dualベースのポリシーグラディエントアルゴリズムが低い後悔保証を達成します。
Abstract
この論文は、無限の平均報酬CMDPにおける後悔と制約違反分析に初めて取り組んでいます。提案されたアルゴリズムは、T^4/5の目的後悔と制約違反境界を達成します。これは一般的なパラメータ化であり、タブロイドや線形ではありません。
Stats
˜O(T 4/5)目的後悔と˜O(T 4/5)制約違反境界を達成します。