核心概念
精心策劃的小型高質量偏好數據集可以提升大型語言模型獎勵模型的效能,勝過使用大量數據的模型。
摘要
書目資訊
Liu, C. Y., Zeng, L., Liu, J., Yan, R., He, J., Wang, C., ... & Zhou, Y. (2024). Skywork-Reward: Bag of Tricks for Reward Modeling in LLMs. arXiv preprint arXiv:2410.18451.
研究目標
本研究旨在探討如何透過精心策劃小型高質量偏好數據集來提升大型語言模型 (LLM) 獎勵模型的效能。
方法
研究者收集並整理了公開的偏好數據集,包含 HelpSteer2、OffsetBias、WildGuardMix 和 Magpie 系列等,構建出 Skywork-Reward Preference 80K 數據集。他們使用數據選擇和過濾技術,優先考慮對模型效能貢獻最大的偏好對,並採用標準 Bradley-Terry (BT) 模型作為訓練目標,比較了不同損失函數的影響。
主要發現
- Skywork-Reward-Gemma-2-27B 和 Skywork-Reward-Llama-3.1-8B 模型在 RewardBench 基準測試中表現出色,證明了精心策劃的小型高質量數據集可以勝過使用大量數據的模型。
- Skywork-Reward-Gemma-2-27B 模型在 RewardBench 的 Chat Hard 類別中取得了新的基準,展現其在處理對抗性偏好方面的優勢。
- 研究發現,Bradley-Terry 損失函數在整體效能上表現最佳,優於其他損失函數變體。
- 研究者發現數據污染問題普遍存在於偏好數據集中,並發布了經過去污染處理的 Skywork Reward Preference 80K v0.2 數據集。
主要結論
精心策劃高質量的偏好數據集對於訓練高效能的 LLM 獎勵模型至關重要。Skywork-Reward 模型系列和數據集的發布為 LLM 獎勵模型的研究提供了寶貴的資源,並為開發更符合人類偏好的 LLM 指明了方向。
研究意義
本研究強調了數據質量對於 LLM 獎勵模型訓練的重要性,並提供了一種有效構建小型高質量偏好數據集的方法。這項研究的結果對於提升 LLM 的安全性、可靠性和對齊性具有重要意義。
局限性和未來研究方向
- 未來研究可以進一步探討數據選擇和過濾技術的最佳策略,以構建更有效的偏好數據集。
- 研究者可以探索更先進的損失函數和訓練方法,以進一步提升 LLM 獎勵模型的效能。
- 未來研究可以探討如何有效解決數據污染問題,並開發更可靠的數據去污染方法。
統計資料
Skywork-Reward 數據集僅包含 80K 個偏好對,遠少於現有數據集。
Skywork-Reward-Gemma-27B 模型目前在 RewardBench 排行榜上排名第一。
Llama 2 使用了大約 150 萬個公開偏好數據點和 140 萬個內部生成的樣本進行獎勵模型訓練。
Dong 等人 (2024) 整合了來自八個不同來源的樣本,產生了大約 700K 個偏好對的數據集。
HelpSteer2 是一個僅包含 10K 個偏好對的精簡數據集。
OffsetBias 是一個包含超過 8K 個偏好對的數據集,旨在解決偏好數據中常見的各種形式的偏差和虛假信號。
WildGuardMix 是一個安全審核數據集,包含 92K 個良性和對抗性提示,以及相應的合規和拒絕回應。
Magpie 系列是由 LLM 生成的四個完全合成數據集的集合。
Skywork-Reward-Gemma-2-27B 是唯一一個在 Chat Hard 上得分超過 90 的模型,比次佳模型 Nemotron-4-340B-Reward 高出四個百分點,得分為 87.1。
使用 378K 個樣本訓練的 Llama 3 的效能優於在 Preference 700K 上訓練的兩個獎勵模型,以及除 SFR-LLaMa-3.1-70B-Judge-I 和 Nemotron-4-340B-Reward 之外的其他大多數模型。
從經過精煉的 66K 個偏好對子集中,研究者在 27B 和 8B 獎勵模型上分別取得了 96.3 和 94.9 的分數。
加入從先前捨棄的 Magpie 數據中精心挑選的 20K 個樣本後,RewardBench 分數進一步提升至 27B 模型的 96.8 和 8B 模型的 95.5。
Bradley-Terry 損失函數取得了 93.8 的最高平均分,優於其他損失函數變體。
Magpie Ultra 子集中大約有 5K 個提示可能與 RewardBench 評估集中存在的提示重疊。
Preference 700K 包含大量與 RewardBench 測試集中相匹配的提示,無論是在覆蓋範圍還是絕對數量方面。
在去污染的數據集上訓練的模型在除 Chat 之外的所有類別中都取得了更高的分數。