核心概念
大規模言語モデル(LLM)の自己改善における報酬バイアス問題に対処するため、異なる学習反復間の一貫性を活用した正則化手法を導入することで、LLMの選好学習の精度と安定性を向上させる。
摘要
CREAM:一貫性を重視した自己報酬型大規模言語モデル
本論文は、大規模言語モデル(LLM)の自己改善における課題、特に報酬バイアス問題に対処する新しい手法であるCREAMを提案しています。
背景
近年のLLMは、人間に近い自然言語処理能力を持つ一方、偏見や有害な出力といった問題も抱えています。これらの問題に対処するために、強化学習に基づく人間からのフィードバック(RLHF)や直接選好最適化(DPO)などの手法が開発されてきました。これらの手法は、LLMの出力に対する選好データを用いてモデルを学習しますが、高品質な選好データの作成には、人手によるラベル付けが必要となるため、コストと時間がかかります。
そこで、自己報酬型言語モデル(SRLM)は、人手によるラベル付けを最小限に抑えながら、LLM自身を用いて選好データを生成し、反復的に学習を進める手法として注目されています。しかし、SRLMは、報酬の精度が保証されないため、ノイズの多い選好データが蓄積され、学習に悪影響を及ぼす可能性があります。
CREAMの提案
本論文では、SRLMにおける報酬バイアス問題に対処するため、異なる学習反復間の一貫性を正則化信号として活用するCREAMを提案しています。
1. 一般化された反復的選好学習フレームワーク
まず、SRLMを含む様々な反復的選好学習手法を分析するための、一般化されたフレームワークを定式化しています。このフレームワークは、SFTデータを用いた学習と、現在のモデルによって生成された選好データペアを用いた学習の2つの要素から構成されます。
2. 一貫性に基づく正則化
SRLMでは、報酬モデルの精度が保証されないため、選好データのラベル付けに過剰な自信が生じ、バイアスや不正確さが伝播する可能性があります。そこで、CREAMでは、異なる報酬モデル間の一貫性を測定し、一貫性の低い選好データからの学習を抑制することで、報酬バイアス問題の軽減を目指します。
3. 実装アルゴリズム
CREAMの実装は、以下の手順で行われます。
- SFTデータを用いて初期モデルを学習する。
- 反復的に選好学習を行う。
- 現在のモデルを用いて、ラベル付けされていないプロンプトデータに対する応答候補を生成する。
- 前回の反復で学習したモデルを用いて、応答候補の報酬を計算し、ランキング化する。
- 現在のモデルと前回のモデルのランキングを比較し、一貫性を測定する。
- 一貫性を考慮した重みを用いて、DPO損失を最小化するようにモデルを更新する。
実験結果
Open Assistantデータセットを用いた実験の結果、CREAMは、SRLMと比較して、様々な自然言語処理タスクにおいて、より高い精度を達成しました。また、CREAMは、反復学習を通じて一貫して性能が向上することも確認されました。
結論
本論文では、SRLMにおける報酬バイアス問題に対処するため、一貫性を重視した自己報酬型大規模言語モデルであるCREAMを提案しました。実験の結果、CREAMは、従来のSRLMと比較して、より高い精度と安定性を実現することが示されました。
統計資料
Open Assistantデータセットから約3.4Kの例を抽出し、シードSFTデータとして使用。
ラベル付けされていないプロンプトデータセットは、シードSFTデータのプロンプトと、ARC-Easy/Challenge、OpenBookQA、SIQA、GSM8Kなどのダウンストリームタスクの学習データのプロンプトを組み合わせて、合計21Kのプロンプトを作成。
実験では、約70億のパラメータを持つLLMであるLlama-3とLlama-2を使用。
初期モデルをシードSFTデータで3エポック、学習率1e-6でファインチューニング。
各反復の選好学習では、DPO損失のβを0.1に設定し、学習率1e-6で1エポック、モデルをファインチューニング。
すべての学習プロセスで、AdamWオプティマイザを使用し、ウォームアップ率は0.1に設定。
すべてのSRLM手法の応答サンプリング段階では、デコーディング温度0.8を使用。
ダウンストリームタスクの評価には、貪欲デコーディングを使用。
引述
"SRLM (Yuan et al., 2024) has emerged as a promising approach to address the challenge of preference data synthesis in a self-improvement manner."
"The core idea behind CREAM is to avoid forcing the model to be overly confident when distinguishing between responses of similar quality."
"By leveraging this consistency rate, we can regularize the preference training to prevent the model from learning from unreliable preference data, thereby mitigating the rewarding bias issue in SRLMs."