核心概念
訓練大型語言模型進行慢速思考(詳細的思維鏈)比快速思考(簡化或無思維鏈)能產生更穩定、一致的梯度模式,這表明慢速思考有助於模型學習和泛化。
標題: 當大型語言模型訓練快速與慢速思考時,各層發生了什麼:梯度視角
作者: Ming Li, Yanhong Li, Tianyi Zhou
研究目標: 本研究旨在探討不同訓練方法(快速思考與慢速思考)對大型語言模型(LLM)各層梯度的影響,並分析這些梯度模式如何反映模型學習和穩定性。
方法: 研究人員使用梯度分析方法,特別是奇異值分解(SVD)和核範數,來量化和比較不同訓練條件下(例如,不同類型的任務、正確與不正確的回應、快速與慢速思考)LLM各層的梯度。
主要發現:
使用詳細的思維鏈(CoT)進行慢速思考訓練會導致不同層的梯度範數相似,而快速思考(簡化或無CoT)則會導致較早層的梯度較大(快速遺忘)以及跨層的劇烈差異。
慢速思考(詳細的CoT)的梯度有助於區分正確和不相關的推理路徑,而沒有CoT時,兩種回應類型的梯度模式相似。
指令微調的LLM在識別不正確的推理路徑方面沒有表現出優於預先訓練的基礎LLM的能力。
上述關於推理任務(數學和常識)的觀察結果不能擴展到知識學習任務,在知識學習任務中,僅僅增加回應長度並不會顯示出與慢速思考相似的梯度模式。
主要結論: 本研究結果表明,慢速思考訓練,特別是使用詳細的CoT,可以提高LLM訓練的穩定性和效率。此外,該研究還強調了梯度分析作為一種理解LLM訓練動態和評估模型穩定性的工具的重要性。
意義: 本研究為理解LLM訓練機制提供了新的見解,並為開發更有效和穩定的訓練策略開闢了道路。
局限性和未來研究: 由於頁數限制,本研究僅分析了有限數量的LLM和任務。未來的研究可以進一步探討不同LLM架構、更大規模的數據集以及更複雜的推理任務的梯度行為。
統計資料
當沒有為LLM提供CoT推理路徑以進行學習(快速思考)時,所有不同投影層曲線的平均絕對差(MAD)最大,這表示LLM所有層的梯度尺度存在嚴重波動。
當提供CoT路徑時,MAD會相應下降,尤其是在提供詳細的CoT路徑時(慢速思考)。
在所有投影層上,學習正確和無意義回應的梯度行為之間的相對差異值均小於0.01。
當在回應中提供詳細的CoT推理路徑時,梯度行為將會不同,主要體現在梯度規模更大。
對於知識密集型任務,回應的長度不會影響梯度尺度和波動。
當LLM學習不受歡迎的知識時,尺度和波動會急劇增加,這表示LLM需要付出更多努力來學習這些不受歡迎的知識。