핵심 개념
本論文では、平均報酬マルコフ決定過程における一般的なパラメータ化に対して、2つのポリシーグラジェントベースの手法を提案する。1つ目の手法は暗黙的勾配輸送を用いた分散削減手法であり、T^{3/5}オーダーの後悔界を達成する。2つ目の手法はヘシアンベースの手法であり、T^{1/2}オーダーの最適な後悔界を達成する。これらの結果は既存の最良の結果であるT^{3/4}オーダーの後悔界を大幅に改善するものである。
초록
本論文では、平均報酬マルコフ決定過程における一般的なパラメータ化に対する2つのポリシーグラジェントベースの手法を提案している。
- 暗黙的勾配輸送を用いた分散削減手法(Algorithm 1)
- 重要サンプリングや曲率情報を必要とせず、単一のトラジェクトリのみをサンプリングする。
- T^{3/5}オーダーの後悔界を達成する。
- ヘシアンベースの手法(Algorithm 2)
- ヘシアン推定値を利用して、T^{1/2}オーダーの最適な後悔界を達成する。
- メモリと計算量はヘシアンフリーの手法と同程度に効率的に実装できる。
両アルゴリズムの後悔界は既存の最良の結果であるT^{3/4}オーダーを大幅に改善している。
통계
提案手法1(Algorithm 1)の後悔界は、O(T^{3/5})である。
提案手法2(Algorithm 2)の後悔界は、O(T^{1/2})である。
既存の最良の結果は、O(T^{3/4})である。