Khái niệm cốt lõi
大型語言模型在處理數學推理問題時,直接使用程式碼生成 (PoT) 的方法相較於逐步推理 (CoT) 更容易出錯,而 HTL 模型透過結合 CoT 的完整推理過程來控制 PoT,並引入 Focus Attention 機制和強化學習,有效提升了模型在數學推理任務上的表現。
研究背景
大型語言模型 (LLM) 在數學推理任務中面臨著挑戰。現有的程式碼生成 (PoT) 方法雖然試圖解決 CoT 方法的計算錯誤問題,但在處理接近口語化場景的問題時,更容易出現推理或文本理解錯誤。
HTL 模型的提出
為了解決 PoT 方法的缺陷,研究者提出了 Human-Think Language (HTL) 模型。HTL 模型借鑒了人類編寫程式碼的過程,利用完整的 CoT 推理步驟來控制 PoT 生成過程,並結合 Focus Attention 機制和強化學習,有效提升了模型在數學推理任務上的表現。
HTL 模型的三個關鍵部分
**推理格式:**HTL 使用完整的 CoT 推理來控制 PoT 生成,結合了兩種方法的優勢。
**Focus Attention 機制:**在程式碼生成過程中,將模型的注意力集中在 CoT 推理資訊上,促使答案更符合 CoT 的邏輯。
**基於 PPO 的錯誤評估函數:**利用強化學習來懲罰重複生成的現象,避免 LLM 在解決複雜數學問題時陷入冗長的推理步驟。
實驗結果
實驗結果表明,HTL 模型在八個數學推理數據集上均取得了優異的成績,顯著優於其他現有方法。HTL 模型不僅在域內數據集上表現出色,在域外數據集和自然語言推理任務中也展現出強大的泛化能力。
總結
HTL 模型提供了一種更有效地結合 CoT 和 PoT 的方法,通過控制資訊流和強化學習,有效提升了 LLM 在數學推理任務上的表現,為解決 LLM 在程式碼生成過程中的推理和文本理解錯誤提供了新的思路。
Thống kê
CodeLlama-Base 模型的程式碼轉換錯誤 (CTE) 從 8.33% 降低到 3.96%。
Mistral-Base 模型的 CTE 從 6.97% 降低到 3.55%。
在五個數據集中,MAmmoTH-Coder-13B 的平均錯誤率為 8.2%,而 MAmmoTH-Coder-34B 的錯誤率為 8.7%。
使用 HTL 模型後,CodeLlama-Base 的平均效能提升了 5%,Mistral-Base 提升了 4%。