核心概念
Pb-PPOは、タスクフィードバックを活用して動的に調整されたクリッピング境界を実装し、安定したトレーニングパフォーマンスを達成することができます。
要約
Proximal Policy Optimization(PPO)は、固定されたクリッピング境界に制限されているため、最適なトレーニングパフォーマンスを達成するために動的なクリッピング境界を研究することが重要です。新しいアルゴリズムPreference based Proximal Policy Optimization(Pb-PPO)は、RLタスクの好みを反映するために多腕バンディットアルゴリズムを活用しています。これにより、安定したトレーニングカーブと優れた結果が得られます。異なる数の候補クリッピング境界での実験結果から、Pb-PPOはさまざまなタスクで高いサンプル効率性とパフォーマンスを示します。
統計
Pb-PPOは5.0%の成功率で最も優れている。
Pb-PPOはWalker2d、Hopper、Ant、HalfCheetahで一貫して安定したトレーニングカーブを示す。
Pb-PPO (wi-ad)は3, 6, 12の候補数で改善が見られる。
引用
"Proximal Policy Optimization(PPO)は、固定されたクリッピング境界に制限されているため..."
"新しいアルゴリズムPreference based Proximal Policy Optimization(Pb-PPO)は..."
"異なる数の候補クリッピング境界での実験結果から..."