Завантажити Linnk AI
•
Помічник з досліджень
>
Увійти
ідея
-
プロセス監視型強化学習
PSPO*:推論アラインメントを実現するための効果的なプロセス監視型強化学習パラダイム
プロセス監視における報酬スコアは、推論チェーンの正確性だけでなく、その長さにも非線形的に関係しており、この特性を強化することで、より効果的なプロセス監視を実現できる。
1