Conceitos essenciais
プロセス監視における報酬スコアは、推論チェーンの正確性だけでなく、その長さにも非線形的に関係しており、この特性を強化することで、より効果的なプロセス監視を実現できる。
Resumo
PSPO*:推論アラインメントを実現するための効果的なプロセス監視型強化学習パラダイム
Jiawei Li, Xinyue Liang, Yizhe Yang, Chong Feng, Yang Gao. (2024). PSPO*: An Effective Process-supervised Policy Optimization for Reasoning Alignment. arXiv preprint arXiv:2411.11681.
大規模言語モデル(LLM)の推論タスクにおけるパフォーマンス向上を目的とした、プロセス監視に基づく強化学習手法において、推論チェーンの正確性と長さの両方を考慮した効果的なプロセス監視手法を提案すること。