核心概念
データ拡張は、状態行動カバレッジの増加がデータ効率性に大きな影響を与えることを示唆しています。
摘要
この論文では、モデルフリー強化学習の更新におけるデータ拡張の利点を分析しました。主な焦点は、状態行動カバレッジ、報酬密度、および増強再生比率であり、それぞれがパフォーマンスにどのように影響するかを明らかにしました。実験結果から、報酬密度よりも状態行動カバレッジの増加がデータ効率性に大きな影響を与えることが示されています。また、増強再生比率を減少させることでデータ効率性が著しく向上することも確認されました。
目次
- A. ダイナミクス不変なデータ拡張関数
- B. 主要な実験用環境
- C. データ拡張関数
- D. 追加実験
- D.1 更新比率の増加
- D.2 バッチサイズの増加
- D.3 Goal2D 増幅再生比率
- E. 汎化実験
- E.1 状態行動カバレッジ
- E.2 報酬密度
- E.3 増幅再生比率
- F. MuJoCo 実験
統計資料
報酬信号生成DA戦略は過剰評価や学習バイアスを引き起こす可能性がある(Lanka and Wu, 2018; Li et al., 2020)。
DAはRLトレーニングに効果的であることが示されている(Hansen and Wang, 2021; Raileanu et al., 2021)。