Proximal Policy Optimization(PPO)は、固定されたクリッピング境界に制限されているため、最適なトレーニングパフォーマンスを達成するために動的なクリッピング境界を研究することが重要です。新しいアルゴリズムPreference based Proximal Policy Optimization(Pb-PPO)は、RLタスクの好みを反映するために多腕バンディットアルゴリズムを活用しています。これにより、安定したトレーニングカーブと優れた結果が得られます。異なる数の候補クリッピング境界での実験結果から、Pb-PPOはさまざまなタスクで高いサンプル効率性とパフォーマンスを示します。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы