核心概念
確率的ポリシーグラジエントを用いて、最適な決定論的ポリシーを学習することができる。
要約
この論文では、決定論的ポリシーを学習するための新しい理論的枠組みを提案している。
- 決定論的ポリシーを学習するために、確率的ポリシーグラジエントを用いる手法を分析している。
- 行動ベースの探索と パラメータベースの探索の両方について、決定論的ポリシーの大域的収束性を理論的に保証している。
- 探索レベル(ノイズの大きさ)と決定論的ポリシーの性能のトレードオフを明らかにし、最適な探索レベルを設定する方法を示している。
- 行動ベースの探索とパラメータベースの探索の長所短所を比較し、直感的な結果に形式的な裏付けを与えている。
- 数値実験により、理論的な結果を実証的に示している。
統計
決定論的ポリシーの性能JDは、確率的ポリシーの性能JA、JPから最大でLJ√dΘσP、LA√dAσAだけ離れる可能性がある。
最適な決定論的ポリシーの性能JDと、確率的ポリシーから学習した決定論的ポリシーのJD(θA)、JD(θ*P)の差は、最大で2LJ√dΘσP、2LA√dAσAである。
上記の差は、MDP、決定論的ポリシーの滑らかさ、ノイズの性質に依存する定数LJ、LAで決まる。
引用
"確率的コントローラは、頑健性、安全性、追跡可能性の欠如から、実用的な観点から望ましくないことが多い。一般的な実践では、確率的(ハイパー)ポリシーは、その決定論的バージョンをデプロイするためにのみ学習される。"
"探索レベル(ノイズの大きさ)を賢明に選択することで、サンプル複雑度と デプロイされた決定論的ポリシーの性能のトレードオフを最適化できる。"