核心概念
本研究では、大規模言語モデルの指示フォロー能力を向上させるため、報酬学習をポリシーに適用する新しい枠組みを提案する。具体的には、ポリシーサンプルを用いて報酬モデルを改善し、オフ分布での精度低下を防ぐ。
要約
本研究は、大規模言語モデルの指示フォロー能力を向上させるための新しい枠組み「報酬学習on ポリシー(RLP)」を提案している。
RLPは以下の3つの主要な特徴を持つ:
非監視学習によるマルチビュー表現学習: ポリシーから生成された2つの出力を用いて、タスク関連の情報を保持しつつ表面的な情報を除去する表現を学習する。
合成的な好みデータの生成: ポリシーから生成された出力セットを用いて、信頼性の高い好みデータを合成的に生成する。これにより、報酬モデルの精度を向上させる。
ポリシーを用いた報酬モデルの改善: 学習したポリシーから生成されたサンプルを用いて、報酬モデルを改善する。これにより、報酬モデルのオフ分布での精度低下を防ぐことができる。
実験の結果、RLPは既存手法と比べて優れた性能を示すことが分かった。特に、合成的な好みデータの生成手法が有効であることが確認された。
統計
大規模言語モデルの出力長は、SFTモデルでは平均278文字、PPOを適用すると637文字に増加する。
RLP-SPGの好みデータでは、好まれる出力(yw)の平均長が510文字、好まれない出力(yl)の平均長が449文字となる。
引用
"報酬モデルの精度が低下すると、ポリシーの最適化に悪影響を及ぼす可能性がある。"
"反復的に新しい好みデータを収集することで、この問題を緩和できるが、システムがより複雑化し、最適化が困難になる。"
"本研究では、ポリシーサンプルを用いて報酬モデルを改善し、オフ分布での精度低下を防ぐ新しい枠組みを提案する。"