Centrala begrepp
為了解決大型語言模型 (LLM) 在算術推理任務中的局限性,本文提出了一個基於教學靈感的整合提示框架,通過模擬教學過程,向 LLM 引入基本概念、定理和類比問題,並設計雙重檢查和答案選擇機制,從而顯著增強其執行算術推理任務的能力。
研究背景
大型語言模型 (LLM) 在各種領域都展現出驚人的效能,但在處理算術推理任務時仍顯吃力。僅僅擴大模型規模並不足以解決這個問題。
研究目標
本研究旨在提出一個新穎有效的教學靈感整合框架,以增強 LLM 在算術推理任務中的能力。
方法
本研究提出的教學靈感整合提示框架模擬了教師指導學生的教學過程,通過以下步驟來增強 LLM 的推理能力:
教學靈感提示生成: 從教育資源中提取類比問題、背景知識(如定理、概念和術語定義)等資訊,並將其整合到提示中,以幫助 LLM 更好地理解和解決問題。
答案生成: 使用自洽性方法,讓 LLM 多次迭代,生成多種不同的解題思路和答案。
答案選擇:
雙重檢查驗證: 比較每個解題路徑生成的答案,驗證 Python 程式碼的輸出是否與逐步分析的結果一致,以提高答案的可信度。
中英文整合: 對於中文問題,將其翻譯成英文,以幫助 LLM 更好地理解問題,從而生成更準確的答案。
進一步選擇: 根據 Python 程式碼輸出和逐步分析結果中出現頻率最高的答案,選擇最終答案。
主要發現
實驗結果表明,該框架能顯著提高 LLM 在九個算術推理基準測試中的準確率,並在 GPT-4 模型上取得了四項基準測試的最新成果。
研究意義
本研究提出了一種新穎的基於教學靈感的整合提示框架,為增強 LLM 的算術推理能力提供了一種有效的方法。
局限性和未來研究方向
未來研究可以進一步完善該框架,並探索其在其他領域的適用性。例如,可以研究如何自動生成更有效的教學靈感提示,以及如何將該框架應用於其他類型的推理任務。
Statistik
在 GPT-3.5-Turbo 模型上,該框架在 GSM8K、Math23K、SingleEQ 和 AQuA 四個基準測試中分別提升了 8.8%、24.8%、8.0% 和 10.2% 的準確率。
在 GPT-4 模型上,該框架在 AddSub、SVAMP、Math23K 和 AQuA 四個基準測試中分別取得了 98.2% (+3.3%)、93.9% (+0.2%)、94.3% (+7.2%) 和 81.1% (+1.2%) 的準確率,達到了新的技術水平。
在 MathMC 和 MathToF 兩個新創建的中文數據集上,該框架在 GPT-3.5-Turbo 模型上分別提升了 18.8% 和 10.5% 的準確率,在 GPT-4 模型上分別提升了 4.1% 和 6.7% 的準確率。