大型語言模型(LLM)在數學推理方面展現出顯著的能力,能夠處理從基礎算術到複雜競賽級別的問題。然而,頻繁出現的細微錯誤,例如計算錯誤或錯誤替換,限制了這些模型充分發揮其數學潛力。
現有提高數學能力的研究通常涉及從更強大的 LLM 中提取推理技巧,或將偏好學習應用於逐步響應對。這些方法利用不同粒度的樣本來減輕推理錯誤,但忽略了經常出現的細微錯誤。主要原因是採樣的偏好對涉及與錯誤無關的差異,這可能會分散模型對細微錯誤的關注。此外,建立細粒度對內的偏好關係需要額外的基於 LLM 的註釋或近似估計,這可能會引入偏差。
除了採樣偏好對並註釋它們的關係之外,生成正確的解決方案並將錯誤注入其中是構建專門針對細微錯誤的對的有效方法。首先,錯誤注入可以在保留解決方案整體結構的同時將錯誤引入少量標記中。這種與正確解決方案差異有限的錯誤注入樣本,可以被視為偏好學習的困難負例。其次,我們可以利用 LLM 本身使用適當的提示來注入預定義的錯誤。與隨機採樣的對相比,基於注入錯誤的對更易於控制,允許偏好學習專注於設計的、目標明確的細微錯誤。
本文提出了一種稱為錯誤注入自我編輯(RISE)的新穎偏好學習框架。其關鍵思想是提示 LLM 將錯誤注入到正確的解決方案中,並構建針對預定義的細微錯誤的困難配對,以進行偏好學習。具體來說,首先應用 LLM 生成多個多步驟解決方案,並構建由一個正確解決方案和一個錯誤解決方案組成的完整解決方案對。然後,選擇正確的解決方案,並編輯解決方案的每個步驟以注入細微錯誤。使用相同的模型進行錯誤注入編輯,因為它可能更好地識別最容易出錯的標記。設計了幾種類型的細微錯誤,並修改了一些標記以引入這些錯誤。將編輯後的步驟和相應的正確步驟收集為自我編輯對。最後,將自我編輯對和完整解決方案對的組合用於細微錯誤感知的 DPO 訓練。
在給定所有自我編輯對和完整解決方案對的情況下,應用 DPO 來優化模型。具體來說,首先從每個問題的所有自我編輯對中隨機選擇 N 對,並將它們與完整解決方案對組合在一起,總共將有 N+1 對作為訓練集。為了有效地學習每個步驟中的細微錯誤,對自我編輯對採用了逐步 DPO 損失,因為它可以專注於細粒度偏好學習,而對完整解決方案對採用了一般 DPO 損失。為了減輕由於配對樣本高度相似而導致的優化失敗的風險,額外引入了針對正確樣本的負對數似然損失。這種損失可以幫助防止生成正確樣本的概率崩潰。
在三個領域內數據集(GSM8k、MATH 和 AQuA)和三個領域外數據集(SVAMP、AIME24 和 Odyssey-MATH)上評估了 RISE 框架。這些數據集涵蓋了廣泛的數學問題,從基礎算術到高級競賽級別的問題。
RISE 在不同規模上都優於最先進的模型。這些結果突出了 RISE 框架的潛力,可以幫助通用 LLM 成為數學通才。在幾個數據集上,RISE-QWEN2-72B 和 RISE-LLAMA-3.1-70B 甚至優於一些閉源 LLM。
與標準 DPO 相比,RISE 框架額外減少了預定義錯誤的數量。特別是對於數字或符號替換錯誤和計算項的遺漏,RISE 減少了錯誤的數量,而標準 DPO 則沒有做到這一點。
自我編輯對對於細粒度偏好學習至關重要,特別是在減輕細微錯誤方面。使用更多自我編輯對並不總是更好的選擇,需要同時考慮準確性和使用額外樣本的訓練成本。
隨著採樣嘗試次數的增加,與配對的正確和錯誤完整解決方案相對應的問題數量也會增加。儘管更多問題參與了偏好學習,但最終結果表明,與更多問題相對應的對實際上降低了學習性能。
具有不同預定義錯誤的樣本更有可能幫助 LLM 學習避免細微錯誤。
本文提出了一種稱為錯誤注入自我編輯(RISE)的新穎偏好學習框架,該框架通過自我編輯構建困難配對,以減輕預定義的細微錯誤。與其他細粒度、逐步偏好學習方法相比,RISE 框架進一步完善了訓練目標,以針對細微錯誤標記,而不需要基於 LLM 或基於估計的偏好註釋。為了避免由於過於相似的偏好對而導致的優化失敗,額外引入了負對數似然損失,由正確樣本的生成概率控制。在兩個 LLM 系列(Qwen2 和 Llama-3.1)中證明了 RISE 框架的有效性。跨多個數學數據集的結果表明,RISE 方法可以釋放模型在數學推理方面的潛力。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Kaishuai Xu,... at arxiv.org 10-10-2024
https://arxiv.org/pdf/2410.06638.pdfDeeper Inquiries