核心概念
學習率預熱並非必要,可透過控制權重更新大小、角度更新大小以及表徵變化程度來降低甚至消除對其的依賴。
論文資訊
Kosson, A., Messmer, B., & Jaggi, M. (2024). Analyzing & Reducing the Need for Learning Rate Warmup in GPT Training. Advances in Neural Information Processing Systems, 38.
研究目標
本研究旨在探討學習率預熱在 GPT 訓練中的作用機制,並嘗試透過其他方法降低甚至消除對其的依賴。
方法
研究人員以 GPT2 模型和 OpenWebText 資料集為基礎,分析 AdamW 和 Lion 等優化器在訓練過程中的權重更新行為。他們特別關注權重更新的大小、角度更新大小以及對網路內部表徵的影響。
主要發現
AdamW 優化器中的動量偏差校正會導致訓練初期出現過大的權重更新。
即使控制了權重更新大小,訓練初期過大的角度更新仍然存在,並可能影響模型效能。
訓練初期梯度訊號的高信噪比會導致網路內部表徵發生劇烈變化,而學習率預熱有助於緩解此問題。
透過控制角度更新大小、提高動量值並進行反向偏差校正,可以顯著降低甚至消除對學習率預熱的需求。
主要結論
學習率預熱並非必要,可以透過其他方法來達到穩定訓練和提升模型效能的目的。控制權重更新大小、角度更新大小以及表徵變化程度是降低預熱需求的關鍵。
研究意義
本研究為理解學習率預熱的作用機制提供了新的視角,並提出了可行的替代方案,有助於簡化大型語言模型的訓練過程。
局限與未來研究方向
本研究主要關注 GPT2 模型和 OpenWebText 資料集,未來需要在更多模型和資料集上進行驗證。
控制表徵變化程度的方法仍需進一步研究和完善。
統計資料
使用 1.24 億參數的 GPT2 模型。
訓練資料集為 OpenWebText。
批次大小為 480。
訓練迭代次數為 5000 次。