核心概念
Dynamische Anpassung des Clipping-Bereichs verbessert die Leistung von PPO.
统计
Proximal Policy Optimization (PPO) wurde in verschiedenen Bereichen angewendet, einschließlich großer Sprachmodelloptimierung und Robotiklernen.
Es gibt keine theoretische Beweise dafür, dass der optimale Clipping-Bereich während des gesamten Trainingsprozesses konsistent bleibt.
Pb-PPO zeigt stabilere Trainingskurven und bessere Ergebnisse über verschiedene Aufgaben hinweg.
引用
"Truncating the ratio of the new and old policies with a unique clipping bound ensures stable training and can achieve the best training performance."
"Different from previous clipping approaches, we consider increasing the maximum cumulative Return in reinforcement learning (RL) tasks as the preference of the RL task."