LLaMA-Berry 透過結合蒙地卡羅樹搜尋(MCTS)和迭代式自我精進(Self-Refine)來優化推理路徑,並利用成對獎勵模型來評估不同的路徑,從而提升大型語言模型的數學推理能力。
大型語言模型 (LLM) 雖然在數學推理方面展現出強大的能力,但經常出現的細微錯誤限制了它們的潛力。本文提出了一種稱為錯誤注入自我編輯 (RISE) 的新穎偏好學習框架,透過將預先定義的細微錯誤注入到正確解決方案的部分標記中,以構建用於錯誤緩解的困難配對,從而提高 LLM 的數學推理能力。
本文提出了一種透過持續預訓練來增強大型語言模型數學推理能力的新方法,該方法基於一個包含數學相關網頁數據、模型生成代碼和教科書的大型數據集 (MathCode-Pile) 以及一種新穎的、從預訓練文本中提取數學推理步驟並將其轉換為相應代碼片段的方法。