Основные понятия
単純な方策最適化(SPO)アルゴリズムは、従来のPPOアルゴリズムよりも高いサンプル効率と低いKL発散を達成し、ポリシーエントロピーも高い。また、ネットワーク深度や複雑性の増加に対しても頑健性を示す。
Аннотация
本論文では、単純な方策最適化(SPO)アルゴリズムを提案している。SPOは、PPO(Proximal Policy Optimization)アルゴリズムの欠点を補うものである。
PPOアルゴリズムでは、確率比のクリッピング操作が信頼領域制約を効果的に課すことができない可能性がある。これがアルゴリズムの安定性に影響を及ぼす可能性がある。
そこでSPOでは、旧ポリシーと現ポリシーのKL発散に対する新しいクリッピング手法を導入する。Atari 2600環境での実験結果から、SPOはPPOの主要バリアントと比較して、より高いサンプル効率、極めて低いKL発散、高いポリシーエントロピーを達成し、ネットワーク深度や複雑性の増加にも頑健であることが示された。さらに、SPOは無制約の一次アルゴリズムの単純さを維持している。
Статистика
KL発散は、PPOアルゴリズムでは必然的に高い値になるが、SPOアルゴリズムではほとんどすべての環境で効果的に抑えられる。
SPOアルゴリズムでは、旧ポリシーと現ポリシーのKL発散の計算が必要だが、計算オーバーヘッドはそれほど増加せず、一次アルゴリズムの単純さを維持できる。
SPOアルゴリズムの上記の特性は、ネットワーク深度や複雑性の増加に対しても頑健である。一方、PPOアルゴリズムでは、ネットワークが深くなるにつれてKL発散の増加が顕著になる。
Цитаты
"PPO (Proximal Policy Optimization) algorithm has demonstrated excellent performance in many fields, and it is considered as a simple version of TRPO (Trust Region Policy Optimization) algorithm. However, the ratio clipping operation in PPO may not always effectively enforce the trust region constraints, this can be a potential factor affecting the stability of the algorithm."
"Extensive experimental results in Atari 2600 environments indicate that, compared to the mainstream variants of PPO, SPO achieves better sample efficiency, extremely low KL divergence, and higher policy entropy, and is robust to the increase in network depth or complexity."