Core Concepts
報酬モデルの質と不安定性に対処するために、オフラインサンプリングと対照的な報酬を統合することで、RLHFプロセスの堅牢性を向上させる方法。
Abstract
強化学習から人間のフィードバック(RLHF)へのアプローチは、報酬モデルの質が重要であり、その不安定性に対処する必要がある。
オフラインサンプリングと対照的な報酬を導入することで、RLHFプロセスの効果を向上させる方法が提案されている。
実証実験では、提案手法が効果的であり、GPTモデルや人間評価によって評価された結果も示されている。
1. 導入
LLMアライメントにおけるRLHFパイプラインは主流であるが、報酬モデルの質が重要である。
報酬モデルは一般化能力に制限があり、訓練中の詳細に敏感である。
2. データ抽出
"Reward Modeling"ではペアワイズな好みデータ注釈を取り上げており、Supervised Fine-tuning(SFT)モデルπSFTは二つの異なる出力(y1, y2)を生成し、人間注釈者は好みを選択する。
"Policy optimization with RL"では新しいパラメータθnew of πRLを最大化する目的関数R(θnew) = E(x,y)∼πθnew [rψ(x, y) + η(θ, θnew, x, y)] を最大化している。
3. RLHF with Contrastive Reward
アプローチはオフラインサンプリングと対照的な報酬から成り立ち、第一段階ではオフラインリワードを収集し、第二段階ではPPOステージで使用されるキャリブレートされた罰則付き報酬を定義している。
Quotes
"Contrastive rewards enable the LLM to penalize reward uncertainty, improve robustness, encourage improvement over baselines, calibrate according to task difficulty, and reduce variance in PPO."
"Our approach explicitly acknowledges the imperfections of the reward model and calibrates the RLHF process using a penalty term defined using a contrastive reward."