Core Concepts
深層強化学習における高い更新比率下での学習課題を明らかにする。
Abstract
深層強化学習において、更新回数が環境サンプル数を大幅に上回る設定下での学習能力を保持し、初期相互作用への過度な適合と後の経験軽視を引き起こす「優越バイアス」現象を検証。初期トレーニング段階での失敗原因を探り、Q値の過大評価が未知の行動予測から生じることを特定。単位ボール正規化法を使用して学習効果を示し、dm_controlスイートで優れたパフォーマンスを得る。これらの結果は、既存の説明や最適な学習方法について一部疑問を投げかける。
Stats
最新の研究では、更新回数が増加すると初期パフォーマンスが向上することが示唆されています。
Q値推定値は初めは理想的なレベルですが、トレーニング中に指数関数的に発散します。
Adamオプティマイザー第2モーメントは発散効果と強く相関しています。
L2ウェイトディケイやドロップアウトは発散をある程度軽減しますが、完全に解決しきれません。
Quotes
"Overinflated Q-values are found not only on out-of-distribution but also in-distribution data."
"Optimization-caused divergence can be mitigated using the unit-ball normalization approach."
"Our results question, in parts, the prior explanation for sub-optimal learning due to overfitting on early data."