核心概念
提案手法の2RA Q学習は、既存のQ学習手法の弱点である推定バイアスを制御可能な形で解決する。分布ロバスト推定量を用いることで、過大推定バイアスや過小推定バイアスのレベルを調整できる。
摘要
本論文では、新しいQ学習手法である2RA Q学習を提案している。2RA Q学習は、既存のQ学習手法の弱点である推定バイアスを原理的に解決する。
具体的には以下の特徴がある:
- 分布ロバスト推定量を用いることで、過大推定バイアスや過小推定バイアスのレベルを調整可能。
- 閉形式の解を持つため、Watkins' Q学習と同程度の計算コストで実行可能。
- 正則化パラメータρと平均化パラメータNを適切に設定することで、最適Q関数への収束を保証。
- 理論的な収束速度解析を行い、Watkins' Q学習と比べて学習率を N倍大きくすれば、同等の漸近平均二乗誤差を達成可能。
- 数値実験の結果、提案手法が既存手法に比べて良好な性能を示すことを確認。
統計資料
報酬関数rは有界である。
学習率αnは、Σ∞n=0αn = ∞、Σ∞n=0α2
n < ∞を満たし、(s, a) = (Sn, An)以外では0となる。