核心概念
提出 TS-Align 框架,利用教師-學生協作機制自動提取偏好數據,以高效可靠的方式迭代微調大型語言模型。
摘要
本文提出了 TS-Align 框架,旨在平衡大型語言模型迭代微調過程中數據標註的可靠性和效率。該框架利用大型教師模型和小型學生模型的協作機制,自動從政策模型的輸出中提取偏好數據,避免了依賴人工標註的需求。
具體來說,TS-Align 包含以下步驟:
從公開指令微調數據集中採樣大量指令,並使用基礎政策模型生成候選響應。
使用小型學生獎勵模型對候選響應進行粗略評分,從中選出偏好對。
強大的教師模型對選出的偏好對進行重新排序,以提高可靠性。
使用重新排序的偏好數據,通過直接偏好優化(DPO)微調政策模型。
利用同樣的模型標註偏好數據,採用多任務學習的方式,迭代更新學生獎勵模型,使其逐步接近教師模型的能力。
通過大量實驗,作者展示了 TS-Align 最終得到的政策模型在7個對話或指令跟隨數據集上平均取得69.7%的勝率,優於基礎政策模型。此外,作者還證明了學生獎勵模型的排序能力也得到了顯著提升,可以有效地幫助其他基礎政策模型的對齊。
統計資料
在7個對話或指令跟隨數據集上,TS-Align 最終得到的政策模型平均取得69.7%的勝率,優於基礎政策模型。
學生獎勵模型的排序能力顯著提升,可以有效地幫助其他基礎政策模型的對齊。
引述
"TS-Align 框架旨在平衡大型語言模型迭代微調過程中數據標註的可靠性和效率。"
"通過大量實驗,作者展示了 TS-Align 最終得到的政策模型在7個對話或指令跟隨數據集上平均取得69.7%的勝率,優於基礎政策模型。"
"作者還證明了學生獎勵模型的排序能力也得到了顯著提升,可以有效地幫助其他基礎政策模型的對齊。"