Proximal Policy Optimization(PPO)は、固定されたクリッピング境界に制限されているため、最適なトレーニングパフォーマンスを達成するために動的なクリッピング境界を研究することが重要です。新しいアルゴリズムPreference based Proximal Policy Optimization(Pb-PPO)は、RLタスクの好みを反映するために多腕バンディットアルゴリズムを活用しています。これにより、安定したトレーニングカーブと優れた結果が得られます。異なる数の候補クリッピング境界での実験結果から、Pb-PPOはさまざまなタスクで高いサンプル効率性とパフォーマンスを示します。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Ziqi Zhang,J... klokken arxiv.org 03-11-2024
https://arxiv.org/pdf/2312.07624.pdfDypere Spørsmål