Concepts de base
非微分可能な目的関数を最大化するための強化学習手法を紹介し、それらを単一ステップの問題から順次決定問題へと拡張する。
Résumé
本論文は深層強化学習の入門として構成されている。
まず、第3章では、非微分可能な目的関数を最大化するための2つの主要な手法を紹介する。
- 価値学習: Q関数を学習し、最大の予測報酬を持つ行動を選択する。
- 確率的方策勾配: 報酬に応じて行動確率を更新する。
これらの手法は、まず固定データセットを前提とした単一ステップの問題に適用される。
第4章では、順次決定問題における課題であるデータ収集の問題を議論する。
- 誤差の蓄積問題: 学習中のモデルが訓練データ外の状態に遭遇し、性能が劣化する問題。
- 探索と活用のトレードオフ: 新しい状態を探索するか、既知の良い状態を活用するかのバランスを取る必要がある。
- リプレイバッファ: 過去のデータを再利用することで、サンプル効率を高める。
第5章と第6章では、第3章の手法を順次決定問題に拡張する。
- 第5章では、オフポリシーな価値学習手法(TD学習)を紹介する。
- 第6章では、オンポリシーな方策勾配手法(REINFORCE、PPO)を紹介する。
各手法について、基本的なアルゴリズムと共通の問題点および解決策を説明する。
Stats
強化学習では、報酬関数Rが微分可能である必要がない。
強化学習では、最適行動a*を知る必要がない。
強化学習では、エピソードの長さが1ステップでも、複数ステップでも扱える。
Citations
"強化学習は、微分可能な目的関数を最大化する必要がない。"
"強化学習では、データ収集が学習の一部となる。"
"強化学習では、探索と活用のトレードオフを考慮する必要がある。"