Proximal Policy Optimization(PPO)は、固定されたクリッピング境界に制限されているため、最適なトレーニングパフォーマンスを達成するために動的なクリッピング境界を研究することが重要です。新しいアルゴリズムPreference based Proximal Policy Optimization(Pb-PPO)は、RLタスクの好みを反映するために多腕バンディットアルゴリズムを活用しています。これにより、安定したトレーニングカーブと優れた結果が得られます。異なる数の候補クリッピング境界での実験結果から、Pb-PPOはさまざまなタスクで高いサンプル効率性とパフォーマンスを示します。
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Ziqi Zhang,J... pada arxiv.org 03-11-2024
https://arxiv.org/pdf/2312.07624.pdfPertanyaan yang Lebih Dalam