Linnk AIをダウンロード
•
自律型リサーチアシスタント
>
サインイン
インサイト
-
単純な方策最適化アルゴリズム
単純な方策最適化
単純な方策最適化(SPO)アルゴリズムは、従来のPPOアルゴリズムよりも高いサンプル効率と低いKL発散を達成し、ポリシーエントロピーも高い。また、ネットワーク深度や複雑性の増加に対しても頑健性を示す。
1