本論文は、大規模言語モデル(LLM)の自己改善における課題、特に報酬バイアス問題に対処する新しい手法であるCREAMを提案しています。
近年のLLMは、人間に近い自然言語処理能力を持つ一方、偏見や有害な出力といった問題も抱えています。これらの問題に対処するために、強化学習に基づく人間からのフィードバック(RLHF)や直接選好最適化(DPO)などの手法が開発されてきました。これらの手法は、LLMの出力に対する選好データを用いてモデルを学習しますが、高品質な選好データの作成には、人手によるラベル付けが必要となるため、コストと時間がかかります。
そこで、自己報酬型言語モデル(SRLM)は、人手によるラベル付けを最小限に抑えながら、LLM自身を用いて選好データを生成し、反復的に学習を進める手法として注目されています。しかし、SRLMは、報酬の精度が保証されないため、ノイズの多い選好データが蓄積され、学習に悪影響を及ぼす可能性があります。
本論文では、SRLMにおける報酬バイアス問題に対処するため、異なる学習反復間の一貫性を正則化信号として活用するCREAMを提案しています。
まず、SRLMを含む様々な反復的選好学習手法を分析するための、一般化されたフレームワークを定式化しています。このフレームワークは、SFTデータを用いた学習と、現在のモデルによって生成された選好データペアを用いた学習の2つの要素から構成されます。
SRLMでは、報酬モデルの精度が保証されないため、選好データのラベル付けに過剰な自信が生じ、バイアスや不正確さが伝播する可能性があります。そこで、CREAMでは、異なる報酬モデル間の一貫性を測定し、一貫性の低い選好データからの学習を抑制することで、報酬バイアス問題の軽減を目指します。
CREAMの実装は、以下の手順で行われます。
Open Assistantデータセットを用いた実験の結果、CREAMは、SRLMと比較して、様々な自然言語処理タスクにおいて、より高い精度を達成しました。また、CREAMは、反復学習を通じて一貫して性能が向上することも確認されました。
本論文では、SRLMにおける報酬バイアス問題に対処するため、一貫性を重視した自己報酬型大規模言語モデルであるCREAMを提案しました。実験の結果、CREAMは、従来のSRLMと比較して、より高い精度と安定性を実現することが示されました。
To Another Language
from source content
arxiv.org
Ключові висновки, отримані з
by Zhaoyang Wan... о arxiv.org 10-17-2024
https://arxiv.org/pdf/2410.12735.pdfГлибші Запити