Core Concepts
S2ACは、Stein Variational Gradient Descentを用いて表現された柔軟な確率的ポリシーを学習することで、MaxEnt強化学習の目的関数をより最適に解決する。
Abstract
本論文は、Maximum Entropy Reinforcement Learning (MaxEnt RL)の課題に取り組む新しいアルゴリズムStein Soft Actor Critic (S2AC)を提案している。
MaxEnt RLでは、期待報酬と期待エントロピーの和を最大化するポリシーを学習する。これにより、より安定性、サンプル効率、ロバスト性の高い行動を学習できる。しかし、このようなエネルギーベースモデル(EBM)ポリシーのエントロピーを正確に推定することが課題となっていた。
従来のアプローチでは、エントロピーを暗黙的に推定する(SQL)か、ガウス分布などの単純なポリシーを仮定する(SAC)ことで対処してきた。しかし、これらでは表現力が不足し、最適な解を得られないという問題があった。
S2ACでは、Stein Variational Gradient Descent (SVGD)を用いて柔軟な確率的ポリシーを表現する。さらに、SVGDの逆変換可能性を利用して、ポリシーのエントロピーを解析的に導出できることを示した。これにより、より最適な解を得られるようになった。
また、SVGDの初期分布をパラメータ化することで、サンプル効率の向上も実現している。
実験では、マルチゴール環境とMuJoCo環境で、S2ACがSQLやSACを上回る性能を示すことを確認した。特に、マルチゴール環境では、S2ACが期待エントロピーを最大化し、ロバスト性の高い振る舞いを学習できることを示した。
Stats
目標関数の期待報酬と期待エントロピーの和を最大化することで、より安定性、サンプル効率、ロバスト性の高い行動を学習できる。
従来のアプローチでは、エントロピーの推定が課題となっていた。
S2ACでは、Stein Variational Gradient Descentを用いて柔軟な確率的ポリシーを表現し、エントロピーを解析的に導出できることを示した。
実験では、S2ACがマルチゴール環境とMuJoCo環境で優れた性能を示した。特に、期待エントロピーを最大化し、ロバスト性の高い振る舞いを学習できることを確認した。
Quotes
"MaxEnt RL (Todorov, 2006; Ziebart, 2010; Haarnoja et al., 2017; Kappen, 2005; Toussaint, 2009; Theodorou et al., 2010; Abdolmaleki et al., 2018; Haarnoja et al., 2018a; Vieillard et al., 2020) has been proposed to address challenges hampering the deployment of RL to real-world applications, including stability, sample efficiency (Gu et al., 2017), and robustness (Eysenbach & Levine, 2022)."
"To achieve this, MaxEnt RL models the policy using the expressive family of EBMs (LeCun et al., 2006)."
"We propose Stein Soft Actor-Critic (S2AC), a MaxEnt RL algorithm that learns expressive policies without compromising efficiency."