核心概念
Marco-o1 模型透過結合思維鏈微調、蒙地卡羅樹搜尋和創新的推理策略,提升大型語言模型處理複雜、真實世界問題的能力,特別是在缺乏明確標準和難以量化獎勵的開放式領域。
要約
Marco-o1 模型研究論文摘要
書目資訊
Yu Zhao*, Huifeng Yin*, Bo Zeng , Hao Wang , Tianqi Shi , Chenyang Lyu , Longyue Wang , Weihua Luo and Kaifu Zhang (2024). Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions. arXiv preprint arXiv:2411.14405v1
研究目標
本研究旨在提升大型語言模型 (LLM) 的推理能力,使其能夠有效地解決複雜、真實世界的開放式問題,特別是在缺乏明確標準和難以量化獎勵的領域。
方法
研究團隊以 Qwen2-7B-Instruct 模型為基礎,採用監督式微調策略,使用 Open-O1 CoT 資料集、自行開發的 Marco-o1 CoT 資料集和 Marco-o1 Instruction 資料集進行訓練。此外,他們整合了思維鏈 (CoT) 微調、蒙地卡羅樹搜尋 (MCTS) 和推理動作策略等技術來增強模型的推理能力。
主要發現
- 透過結合 CoT 資料集進行微調,Marco-o1-CoT 模型在處理複雜任務方面有所提升。
- 透過整合 MCTS,Marco-o1-MCTS 模型能夠探索多種推理路徑,並根據計算出的信心分數選擇最有可能的答案,進一步提升模型解決問題的能力。
- 在 MGSM 英文和中文資料集的測試中,Marco-o1-MCTS 模型相較於 Marco-o1-CoT 模型和基礎模型 Qwen2-7B-Instruct,都展現出更高的準確率,證明了 MCTS 方法的有效性。
- 在翻譯任務中,Marco-o1 模型展現出優於 Google 翻譯的效能,尤其是在處理口語和俚語表達方面,顯示出其對語境的理解和推理能力更上一層樓。
主要結論
Marco-o1 模型透過整合 CoT、MCTS 和創新的推理策略,有效提升了大型語言模型在開放式問題上的推理能力。實驗結果顯示,該模型在各種推理任務和翻譯任務中均有顯著的改進,證明了其在處理複雜、真實世界問題方面的潛力。
研究意義
本研究對於推動大型語言模型在更廣泛領域的應用具有重要意義,特別是在需要處理開放式問題、口語和俚語等複雜情況下,為開發更強大、更通用的語言模型提供了新的思路和方法。
局限性和未來研究方向
- 目前 MCTS 的獎勵訊號主要依賴信心分數,存在一定的隨機性,未來將探索透過結果獎勵模型 (ORM) 和過程獎勵模型 (PRM) 來優化獎勵機制,以降低隨機性並進一步提升效能。
- 未來將進一步探索強化學習技術,以微調 Marco-o1 的決策過程,最終增強其處理複雜真實世界任務的能力。
統計
在 MGSM 英文資料集上,Marco-o1-CoT 的準確率為 85.60%,而 Qwen2-7B-Instruct 的準確率為 84.23%。
在 MGSM 中文資料集上,Marco-o1-MCTS (mini-step of 32 tokens) 的準確率為 82.40%,而 Qwen2-7B-Instruct 的準確率為 76.80%。
Marco-o1-MCTS (step) 在 MGSM 英文資料集上的準確率最高,達到 90.40%。
引用
“Can the o1 model effectively generalize to broader domains where clear standards are absent and rewards are challenging to quantify?”
"This shoe offers a stepping-on-poop sensation" to English “This shoe has a comfortable sole"