本研究は、人間の好みに基づいて言語モデルを最適化する際の長さの偏りの問題に取り組んでいる。
まず、Reinforcement Learning from Human Feedback (RLHF)パイプラインにおいて、長さの偏りが既知の問題であることを確認した。RLHF では、報酬モデルの学習時に、生成された回答の長さが好まれる傾向があり、必ずしも質の高い回答が得られないことが知られている。
次に、Direct Preference Optimization (DPO)アルゴリズムにおいても同様の長さの偏りが見られることを示した。DPOは、RLHF のパイプラインを簡略化したアルゴリズムだが、長さの問題は依然として存在する。
そこで本研究では、DPOアルゴリズムに長さの正則化項を導入する手法を提案した。この手法により、長さの偏りを抑えつつ、質の高い回答を生成できることを示した。特に、GPT4のような長さバイアスの強い評価器を用いた場合でも、長さ補正後の性能が向上することを確認した。
さらに、DPOにおける長さの偏りの原因を分析した。DPOの暗黙的な報酬関数が、トレーニングデータ外の長い回答に大きな報酬を与える傾向にあることが原因であると考えられる。
以上より、DPOにおける長さの問題に対する有効な解決策を提示した本研究は、人間の好みに基づく言語モデルの最適化において重要な知見を与えている。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor