Core Concepts
ChatGLM-RLHFパイプラインは、人間の好みデータの収集、報酬モデルの訓練、ポリシーモデルの最適化の3つの主要コンポーネントから成り、大規模言語モデルのChatGLMの人間の好みへの調整を実現する。
Abstract
本論文は、大規模言語モデルChatGLMの人間の好みへの調整を目的としたChatGLM-RLHFパイプラインについて説明している。
まず、人間の好みデータの収集では、アノテーターに対して応答の有用性、安全性、流暢性の観点から比較評価を行わせ、バイアスを除去するための手法を導入している。
次に、報酬モデルの訓練では、長さバイアスの軽減や訓練の安定化のための工夫を行っている。
最後に、ポリシーモデルの最適化では、参照報酬の導入や能力の忘却を防ぐための正則化手法を提案している。また、大規模モデルの効率的な並列化手法も紹介している。
実験の結果、ChatGLM-RLHFは監督学習ファインチューニング版のChatGLMと比べて、中国語のアライメントタスクで平均15%以上の性能向上を達成した。本論文は、大規模言語モデルの人間の好みへの調整における課題と解決策を示しており、RLHF実装の洞察を提供している。
Stats
人間の好みデータには、平均2.4ターンの対話、平均314.1トークンの履歴、平均104.1トークンのプロンプト、平均267.7トークンの応答が含まれている。
報酬モデルの訓練精度は、ChatGLM-6Bで64%、ChatGLM-32Bで68%である。
Quotes
"ChatGLM-RLHF encompasses three major components: the collection of human preference data, the training of the reward model, and the optimization of policies."
"To overcome the issue of capability forgetting, we propose to incorporate an extra supervised next-token-prediction loss as an additional regularization besides the KL divergence, when performing reward maximization."
"Experiments show that ChatGLM-RLHF brings significant improvements in alignment tasks compared to the supervised fine-tuned (SFT) version of ChatGLM. For instance, it achieves on average 15% more wins against ChatGLM-SFT in Chinese alignment tasks."