核心概念
分散TD(λ)において、ワンショット平均化が線形スピードアップをもたらすことを示す。
摘要
- 強化学習におけるポリシー評価の問題を考える。
- 線形関数近似を用いた時間差分法の最も単純なクラスに焦点を当てる。
- 多エージェントバージョンでN個のエージェントが同じMDPとポリシーを持つ場合、N倍速でポリシー評価が可能か検討する。
- 以前の研究では、通信ラウンドや平均ラウンドが必要だったが、本研究ではワンショット平均化だけで線形スピードアップが達成されることを示す。
- TD(0)に限らず、より一般的なクラスであるTD(λ)に対しても成立することを示す。
Introduction:
強化学習におけるポリシー評価の重要性と課題について述べられている。
Background:
- マルコフ決定過程(MDP)や値関数近似などの基本的な概念が説明されている。
Distributed Markov Model and Algorithm:
- N個のエージェントが同じMDPとポリシーを共有し、それぞれがトラジェクトリをサンプリングしてパラメータθtを更新するアルゴリズムについて説明されている。
Convergence times for centralized TD(0) and TD(λ):
- 集中型TD(0)およびTD(λ)の収束時間に関する結果が述べられている。
Main Result:
- 分散TD(0)およびTD(λ)における線形スピードアップ手法であるワンショット平均化の主要結果が示されている。
統計資料
"この設定では、N人のエージェントはターゲット精度が十分小さい場合、方策評価をN倍速で行うことができます。"
引述
"我々はこの設定で、N人のエージェントはターゲット精度が十分小さい場合、方策評価をN倍速で行うことができます。"