本論文では、平均報酬マルコフ決定過程における一般的なパラメータ化に対して、2つのポリシーグラジェントベースの手法を提案する。1つ目の手法は暗黙的勾配輸送を用いた分散削減手法であり、T^{3/5}オーダーの後悔界を達成する。2つ目の手法はヘシアンベースの手法であり、T^{1/2}オーダーの最適な後悔界を達成する。これらの結果は既存の最良の結果であるT^{3/4}オーダーの後悔界を大幅に改善するものである。


coremsg

平均報酬マルコフ決定過程における一般的なパラメータ化に対するバリアンス削減ポリシーグラジェントアプローチ