核心概念
基於序數回饋的獎勵模型學習方法,相較於傳統的二元回饋方法,能夠更有效地利用人類偏好數據,提升獎勵模型的學習效果,尤其在處理近似評分樣本時更具優勢。
這篇研究論文探討了在序數回饋下學習獎勵模型 (Reward Model, RM) 的問題,特別關注於如何將人類的偏好轉化為對大型語言模型 (Large Language Model, LLM) 的有效訓練。
研究目標:
解決現有獎勵模型學習方法中,僅依靠二元回饋 (例如「較好」或「較差」) 而忽略更細膩偏好資訊的問題。
提出一個基於序數回饋的獎勵模型學習框架,以更有效地利用人類偏好數據。
方法:
引入「邊際無偏性假設」,假設群眾的平均偏好能準確反映真實偏好,並據此建立序數回饋的機率模型。
提出一個新的學習目標函數,自然地將二元回饋推廣到序數回饋。
從理論上證明了序數回饋的優勢,即相較於二元回饋,序數回饋能降低模型的Rademacher 複雜度,進而提升泛化能力。
主要發現:
序數回饋能有效提升獎勵模型的學習效果,無論是在數據分佈內 (in-distribution, ID) 還是數據分佈外 (out-of-distribution, OOD) 的評估中,都展現出更高的準確率。
在訓練數據中混合一定比例的近似評分樣本 (例如標記為「相同」的樣本),並採用提出的學習目標函數,能夠進一步提升獎勵模型的學習效果。
意義:
本研究為獎勵模型學習提供了一個更有效且更符合人類直覺的框架。
研究結果對於提升大型語言模型與人類偏好的對齊具有重要意義。
局限與未來研究方向:
未來的研究可以探討如何將序數回饋應用於更複雜的偏好模型,例如考慮多個評分因素的模型。
可以進一步研究如何設計更有效的標註指南,以引導人類標註者提供更準確的序數回饋。
統計資料
Skywork-Reward-Preference-80K-v0.2 數據集包含 8 萬條數據。
實驗中使用了 llama-3.2-1b-instruct 和 gemma-2-2b-it 兩種基礎模型。
評估指標包括數據分佈內 (ID) 準確率和數據分佈外 (OOD) 準確率。
實驗結果顯示,5 級序數回饋的模型性能最接近於理想的 Oracle 模型。
在 32,768 條訓練樣本中,混合 25% 或 50% 的近似評分樣本能提升模型性能。