Core Concepts
モデルベース強化学習では、モデルの予測精度を高めることが必ずしも最適な行動の選択につながらないという問題がある。この目的関数のミスマッチを解決するための様々なアプローチが提案されている。
Abstract
本論文は、モデルベース強化学習における目的関数のミスマッチの問題を解決するための4つのアプローチを提案している。
分布補正(Distribution Correction)
モデルの学習と方策の最適化において、訓練データの分布のずれを補正する。
モデルシフトを扱うアプローチと方策シフトを扱うアプローチがある。
制御としての推論(Control-As-Inference)
モデルの学習と方策の最適化を単一の確率的推論問題として定式化する。
方策の最適性を表す変数を導入し、その尤度を最大化することで、両者の目的関数を統一する。
価値等価性(Value-Equivalence)
正確な状態遷移を学習するのではなく、価値関数の推定精度を高めることに焦点を当てる。
価値関数の予測精度を最大化するようにモデルを学習する。
微分可能な計画(Differentiable Planning)
モデルベースの方策最適化プロセスを微分可能なプログラムに埋め込む。
モデルと方策を同時に最適化することで、両者の目的関数を統一する。
これらのアプローチは、モデルの学習と方策の最適化の目的関数のアラインメントを図ることで、より効率的で頑健なモデルベース強化学習を実現することを目指している。
Stats
報酬の最大値は Rmax である。
状態遷移確率の KL divergence が ϵ ˆ
M 以下であれば、方策評価誤差は √2γRmax/(1-γ)^2 * √ϵ ˆ
M 以下に抑えられる。
方策の KL divergence が ϵπ 以下であれば、方策評価誤差は 2√2γRmax/(1-γ)^2 * √ϵπ 以下に抑えられる。
Quotes
"モデルの予測精度が必ずしも最適な行動の選択につながらない"
"目的関数のミスマッチは、モデルベース強化学習における重要な課題である"