Core Concepts
最大平均ディスクレパンシーバリセンターを利用することで、強化学習における価値関数の不確実性を効果的に伝播できる。
Abstract
本論文では、Wasserstein Q-Learning (WQL)に代わる新しいアルゴリズムとして、Maximum Mean Discrepancy Q-Learning (MMD-QL)を提案している。MMD-QLは、MMDバリセンターを用いて価値関数の不確実性を効果的に伝播させる。
MMDはWassersteinよりも確率分布間の近さを正確に推定できるため、MMD-QLはWQLよりも各状態の価値関数の推定値が高くなる。
タブラー環境での理論分析では、MMD-QLがWQLと同程度のPAC-MDP効率性を持つことを示している。深層学習版のMMD-QNについても収束率を分析し、アタリゲームの実験で高い性能を示している。
タブラー環境の実験では、MMD-QLがWQLと同等以上の性能を示している。特に、MMD-QNは連続状態空間の課題でも優れた性能を発揮し、ベンチマークアルゴリズムを上回る結果が得られている。
Stats
価値関数の不確実性は、報酬と遷移確率の推定誤差から生じる認知的不確実性と、次状態の価値関数の近似誤差から生じる偶発的不確実性の2つの要因から構成される。
MMD-TDアップデートルールでは、これら2つの不確実性を明示的に考慮している。
Quotes
"MMDはWassersteinよりも確率分布間の近さを正確に推定できるため、MMD-QLはWQLよりも各状態の価値関数の推定値が高くなる。"
"MMD-QNは連続状態空間の課題でも優れた性能を発揮し、ベンチマークアルゴリズムを上回る結果が得られている。"