核心概念
大型語言模型在處理數學推理問題時,直接使用程式碼生成 (PoT) 的方法相較於逐步推理 (CoT) 更容易出錯,而 HTL 模型透過結合 CoT 的完整推理過程來控制 PoT,並引入 Focus Attention 機制和強化學習,有效提升了模型在數學推理任務上的表現。
研究背景
大型語言模型 (LLM) 在數學推理任務中面臨著挑戰。現有的程式碼生成 (PoT) 方法雖然試圖解決 CoT 方法的計算錯誤問題,但在處理接近口語化場景的問題時,更容易出現推理或文本理解錯誤。
HTL 模型的提出
為了解決 PoT 方法的缺陷,研究者提出了 Human-Think Language (HTL) 模型。HTL 模型借鑒了人類編寫程式碼的過程,利用完整的 CoT 推理步驟來控制 PoT 生成過程,並結合 Focus Attention 機制和強化學習,有效提升了模型在數學推理任務上的表現。
HTL 模型的三個關鍵部分
**推理格式:**HTL 使用完整的 CoT 推理來控制 PoT 生成,結合了兩種方法的優勢。
**Focus Attention 機制:**在程式碼生成過程中,將模型的注意力集中在 CoT 推理資訊上,促使答案更符合 CoT 的邏輯。
**基於 PPO 的錯誤評估函數:**利用強化學習來懲罰重複生成的現象,避免 LLM 在解決複雜數學問題時陷入冗長的推理步驟。
實驗結果
實驗結果表明,HTL 模型在八個數學推理數據集上均取得了優異的成績,顯著優於其他現有方法。HTL 模型不僅在域內數據集上表現出色,在域外數據集和自然語言推理任務中也展現出強大的泛化能力。
總結
HTL 模型提供了一種更有效地結合 CoT 和 PoT 的方法,通過控制資訊流和強化學習,有效提升了 LLM 在數學推理任務上的表現,為解決 LLM 在程式碼生成過程中的推理和文本理解錯誤提供了新的思路。
統計資料
CodeLlama-Base 模型的程式碼轉換錯誤 (CTE) 從 8.33% 降低到 3.96%。
Mistral-Base 模型的 CTE 從 6.97% 降低到 3.55%。
在五個數據集中,MAmmoTH-Coder-13B 的平均錯誤率為 8.2%,而 MAmmoTH-Coder-34B 的錯誤率為 8.7%。
使用 HTL 模型後,CodeLlama-Base 的平均效能提升了 5%,Mistral-Base 提升了 4%。