Core Concepts
確率的アプローチを組み合わせたデータ効率的なMBRL問題の解決方法を提案する。
Abstract
国際会議で発表された研究内容。
確率的世界モデルは、MBRLのデータ効率性を向上させる。
3つの異なる確率的世界モデルを使用して、トラジェクトリサンプリングと深層ガウス共分散ネットワーク(DGCN)を比較。
DGCNと軌道サンプリングの組み合わせが他の不確実性伝播手法と確率モデルよりもサンプル効率性を向上させることが示されている。
プロバビリティニューラルネットワーク
PNNはBNNとして記述される。
重みはトレーニング後に固定値を持つ。
不確実性伝播
PILCOアルゴリズムはGPに基づいており、平均値と分散は閉形式方程式を使用して明示的に計算できる。
拡張カルマンフィルター(EKF)、非線形カルマンフィルター(UKF)、粒子法などの代替手法も使用可能。
軌道サンプリング
PETSアルゴリズムでは、初期分布から一定数の粒子がサンプリングされ、各粒子ごとに予測される。
各粒子が軌跡を生成し、累積報酬の平均値を計算することで期待累積報酬が推定される。
Stats
研究内容に関連する重要な数字や指標は含まれていません。
Quotes
"Probabilistic world models increase data efficiency of model-based reinforcement learning (MBRL) by guiding the policy with their epistemic uncertainty to improve exploration and acquire new samples."
"During our tests, we place particular emphasis on the robustness of the learned policies with respect to noisy initial states."