Скачать Linnk AI
•
Автономный помощник по исследованиям
>
Войти
аналитика
-
単純な方策最適化アルゴリズム
単純な方策最適化
単純な方策最適化(SPO)アルゴリズムは、従来のPPOアルゴリズムよりも高いサンプル効率と低いKL発散を達成し、ポリシーエントロピーも高い。また、ネットワーク深度や複雑性の増加に対しても頑健性を示す。
1