核心概念
本文提出了一種名為 ScaleQuest 的新型資料合成方法,該方法利用較小的開源模型從零開始生成大量高質量的推理資料,並透過此方法顯著提升了大型語言模型在數學推理任務上的表現。
摘要
論文概述
本論文介紹了一種名為 ScaleQuest 的新型資料合成方法,旨在提升大型語言模型 (LLM) 的推理能力。該方法著重於從零開始生成大量高質量的推理資料,並利用這些資料對 LLM 進行微調,進而提升其在數學推理任務上的表現。
研究背景
現有的 LLM 推理資料合成方法主要依賴於強大的語言模型(如 GPT-4)來生成問題,但高昂的 API 成本限制了其生成大規模資料的實用性。此外,現有方法生成的資料多樣性有限,難以滿足 LLM 訓練的需求。
ScaleQuest 方法
ScaleQuest 透過以下步驟實現資料合成:
- 問題微調 (QFT):利用一小部分問題對問題解決模型進行訓練,以激活其問題生成能力。
- 問題偏好優化 (QPO):使用外部 LLM 對生成的初始問題進行優化,重點關注問題的可解性和難度。
- 問題過濾:對生成的問句進行語言過濾、可解性過濾和難度抽樣,以確保資料品質。
- 答案生成與獎勵過濾:使用問題解決模型生成多個候選答案,並利用獎勵模型選擇最佳答案。
實驗結果
實驗結果顯示,ScaleQuest 能夠顯著提升 LLM 在數學推理任務上的表現。與現有方法相比,ScaleQuest 在多個基準測試中均取得了顯著的效能提升。此外,ScaleQuest 還展現出良好的可擴展性,隨著資料量的增加,模型的效能持續提升。
結論與未來方向
ScaleQuest 為 LLM 推理資料合成提供了一種低成本、可擴展且高效的方法。未來研究方向包括:
- 將 ScaleQuest 應用於更廣泛的推理任務,例如科學和競賽程式設計。
- 持續擴展資料合成規模,探索合成資料的規模法則。
- 研究 LLM 的自我改進能力,例如合成偏好調整資料以更好地對齊 LLM。
統計資料
使用 ScaleQuest 合成的資料集包含 100 萬個問題-答案對。
在數學推理基準測試 MATH 上,使用 ScaleQuest 微調的 7B 模型 Qwen2-Math-7B-ScaleQuest 的零樣本準確率達到 73.4%,與 GPT-4-Turbo 的效能相當。
與基線模型相比,ScaleQuest 在多個基準測試中均取得了 29.2% 到 46.4% 的效能提升。
生成 100 萬個資料樣本僅需 522.9 個 GPU 小時,估計雲伺服器租賃成本為 680.8 美元,僅為使用 GPT-4o 生成相同資料成本的 10%。