Core Concepts
有限時間MDPにおいて、同時的なポリシー勾配法と動的なポリシー勾配法の収束解析を行い、動的アプローチの理論的優位性を示す。
Abstract
本論文では、有限時間MDPにおけるポリシー勾配法の収束解析を行っている。
まず、同時的なポリシー勾配法について分析を行う。この手法では、全てのエポックのパラメータを同時に学習する。収束解析では、目的関数の滑らかさと弱いポリヤック・ロジャシェフィッツ不等式を用いて、大域的収束性を示す。
次に、動的なポリシー勾配法を提案する。この手法では、動的計画法の考え方を取り入れ、後ろ向きに各エポックのポリシーを学習する。収束解析では、同時的アプローチに比べて、より良い収束速度を得られることを示す。これは、後ろ向きの学習により、各エポックの最適性を効果的に活用できるためである。
さらに、正確な勾配が得られない場合を考え、ストカスティック・ポリシー勾配法の収束解析も行う。両アプローチについて、高確率で大域的最適解に収束することを示す。動的アプローチでは、定数項の扱いが同時的アプローチよりも有利になる。
全体として、有限時間MDPにおいて、動的なポリシー勾配法が理論的に優れていることが明らかになった。
Stats
有限時間MDPの状態空間は S = S0 ∪ ... ∪ SH−1、行動空間は A = ∪s∈S As。
報酬関数は r: S × A → R、遷移関数は p: S × A → ∆(S)。
目的は、初期状態 s0 における状態価値関数 V0(s0) を最大化するポリシーを見つけること。
Quotes
"有限時間MDPは、割引無限時間MDPとは異なり、最適ポリシーは定常ではなく、エポックに依存する。"
"同時的なポリシー勾配法では、全てのエポックのパラメータを同時に学習するが、動的アプローチでは、後ろ向きに各エポックのポリシーを学習する。"
"動的アプローチでは、後ろ向きの学習により、各エポックの最適性を効果的に活用できるため、より良い収束速度が得られる。"