核心概念
本文提出了一種新的開放式強化學習與人類回饋(RLHF)框架,稱為「透過非對稱自我博弈進化對齊」(Evolving Alignment via Asymmetric Self-Play,eva),用於改善大型語言模型(LLM)的對齊效果。eva透過一個「創造者-解決者」遊戲,讓模型在不斷進化的提示分佈上進行訓練,從而提升模型的泛化能力和對齊效果,並超越了依賴靜態人類提示的傳統RLHF方法。
摘要
論文摘要
本研究提出了一種名為「透過非對稱自我博弈進化對齊」(eva)的全新開放式 RLHF 框架,旨在解決現有 RLHF 框架在對齊大型語言模型(LLM)時,因假設提示分佈固定所導致的次優性和可擴展性限制問題。
eva 將對齊過程視為兩個玩家之間的非對稱遊戲:
- 創造者(Creator): 使用獎勵模型生成信息量越來越大的提示分佈。
- 解決者(Solver): 學習針對創造者生成的提示,產生更符合偏好的回應。
這種非對稱自我博弈的框架帶來了一種簡單有效的可擴展對齊方法,並且可以利用任何現有的 RLHF 演算法。實驗結果顯示,eva 在廣泛使用的基準測試中優於最先進的方法,並且不需要任何額外的人工設計提示。
主要貢獻
- 新原則: 提出一種用於對齊語言模型的通用開放式 RLHF 目標,該目標旨在共同優化提示分佈和回應策略,從而激勵模型自我改進,使其能夠在新的、未見過的任務上也能很好地泛化,超越初始訓練提示分佈的限制。
- 新演算法: 設計了一種透過非對稱自我博弈的實用演算法來優化目標,該演算法透過在創造者-解決者遊戲中交替優化來實現,並且可以輕鬆插入任何現有的對齊流程中。
- 最先進的效能: 在公開對齊基準測試中驗證了方法的有效性,並在與不同的偏好優化演算法(即 DPO、SPPO、SimPO、ORPO)結合使用時,展現出普遍強勁的效能提升。
eva 的運作機制
eva 透過以下步驟實現:
- 創造者步驟:
- 估計信息量:根據回應的對比程度評估每個提示的信息量。
- 樣本子集:根據信息量加權抽樣一個信息豐富的提示子集。
- 自我進化提示:基於信息豐富的提示子集進化出新的提示。
- 解決者步驟:
- 自我生成回應:針對進化後的提示生成多個回應。
- 標註獎勵:為每個回應標註獎勵。
- 偏好優化:使用標註的獎勵更新回應策略。
eva 的優勢
- 可擴展性: eva 不依賴於固定的提示分佈,因此可以隨著模型的學習不斷進化,從而提高模型的可擴展性。
- 泛化能力: eva 鼓勵模型在不同的提示分佈上進行訓練,從而提高模型的泛化能力。
- 效率: eva 可以自動生成信息豐富的提示,從而減少對人工標註的需求,提高訓練效率。
總結
eva 是一種新穎、簡單且有效的語言模型對齊框架,可以插入任何現有的對齊流程中。研究結果顯示,自我進化聯合數據分佈可以顯著提高對齊效果,而獎勵優勢可以作為一個有效的指標,指導未來提示的收集和創建,以實現更好的對齊效果。
統計資料
GEMMA2-9B-IT 在 Arena-Hard 基準測試中,使用 DPO 的勝率從 51.6% 提升至 60.1%。
GEMMA2-9B-IT 在 Arena-Hard 基準測試中,使用 SimPO 的勝率從 52.3% 提升至 60.7%。
eva 在 AlpacaEval 2.0 基準測試中,隨著獎勵模型規模的增加,對齊增益也隨之增加。
引述
“What I cannot create, I do not understand.” – Richard P. Feynman