核心概念
本文提出了一種名為直接排序偏好優化 (DRPO) 的新方法,透過將人類偏好對齊視為學習排序 (LTR) 任務,並利用可微分 NDCG 排序來優化基於偏好數據的響應排序,從而提高大型語言模型與人類偏好的對齊度和響應品質。
摘要
利用可微分 NDCG 排序優化偏好對齊:研究論文摘要
參考資訊: Zhou, J., Wang, X., & Yu, J. (2024). Optimizing Preference Alignment with Differentiable NDCG Ranking. arXiv preprint arXiv:2410.18127.
研究目標: 本文旨在解決現有大型語言模型 (LLM) 偏好對齊方法的不足,這些方法主要關注成對偏好數據,而忽略了人類偏好在排序資訊中的體現。研究提出了一種新方法,稱為直接排序偏好優化 (DRPO),將人類偏好對齊視為一個列表排序問題,利用排序偏好數據來對齊 LLM。
方法: DRPO 方法包含三個主要組成部分:
- 排序分數計算: 提出了一種新的排序分數計算策略,稱為自適應排序策略分數 (Adaptive Rank Policy Score),取代了 RLHF 中常用的策略參考比率 (Policy Reference Ratio) 方法。該策略著重於最大化偏好響應的絕對可能性,並根據響應在排序列表中的相對位置動態調整分數邊距。
- 可微分響應排序: 採用可微分排序網路根據計算出的分數對響應進行排序,實現了端到端的 LLM 微調,以學習排序偏好。
- 可微分歸一化折損累計增益 (diffNDCG) 損失: 提出了一種新的可微分 NDCG (diffNDCG) 指標,模擬 LTR 中常用的 NDCG 指標,用於評估排序品質。通過優化 diffNDCG 損失,模型可以優先考慮排名靠前的響應,並對排名靠前的響應放置在較低位置的情況施加更嚴厲的懲罰。
主要發現:
- DRPO 方法在 Anthropic 的 Helpful and Harmless (HH) 數據集上優於現有的基準方法,包括 SFT、DPO、PRO 和 LiPO,證明了其在提高生成響應品質方面的有效性。
- 實驗結果顯示,NDCG 與評估指標(如勝率和排序準確率)之間存在很強的相關性,這表明優化 NDCG 可以有效提高評估中的勝率和排序準確率。
結論: DRPO 方法為利用排序偏好數據對齊 LLM 提供了一種新的有效途徑。通過直接優化 NDCG 排序指標,DRPO 可以有效提高 LLM 生成響應的品質,使其更符合人類偏好。
意義: 本研究為 LLM 偏好對齊領域做出了重要貢獻,提出了一種新的基於排序偏好數據的對齊方法。DRPO 方法的提出有助於推動更安全、更可控、更符合人類價值觀的 AI 系統的發展。
局限性和未來研究方向:
- 未來研究可以探索更複雜的可微分排序網路結構,以進一步提高排序效率和準確率。
- 可以進一步研究 diffNDCG 損失函數的不同變體,以探索其對模型性能的影響。
- 可以將 DRPO 方法應用於其他 LLM 任務,例如對話生成和機器翻譯,以評估其在不同領域的泛化能力。
統計資料
在 Anthropic 的 Helpful and Harmless (HH) 數據集上,DRPO 方法的 GPT-4 勝率提高了 5.22%∼6.13%,獎勵模型勝率提高了 4.69%∼8.98% 和 0.78%∼2.73%。
在 UltraFeedback 數據集上,DRPO 方法在 AlpacaEval2.0 長度控制勝率 (LC) 中實現了 1.2% 的改進,在 AlpacaEval2.0 原始勝率 (WR) 中實現了 0.7% 的改進。
在多模態 VLFeedback 數據集上,DRPO 方法在 MME 基準測試中,感知任務的表現優於其他方法 21.8。同時,在 MM-Vet 基準測試中實現了 1.4 的改進,在 MM-Bench 中實現了 1.64% 的改進。
引述
"然而,由於訓練數據的多樣性,這些模型有時會產生可能與人類偏好不一致的內容,包括捏造的答案、攻擊性評論或有害響應 (Bai et al., 2022; Wang et al., 2023)。"
"與人類偏好的對齊已成為一個活躍的研究領域。強化學習與人類反饋 (RLHF) (Ouyang et al., 2022) 是該領域中第一個提出的方法。"
"然而,RLHF 的優化過程很複雜,並且由於訓練不穩定且成本高昂,其實現帶來了挑戰。"