核心概念
對於大型語言模型,比起追求數據效率,更應該追求訓練速度,因為在固定預算下,更快的模型可以處理更多數據,最終獲得更佳的性能表現。
本研究探討了在固定訓練時間下,如何選擇模型超參數以最大化語言模型的最終性能。研究指出,傳統基於 FLOPs 的時間估計方法並不可靠,而基於內存複製操作的估計方法則更為準確。
研究人員基於內存複製操作構建了一個新的指標,用於估計 Transformer 模型的訓練速度,並結合 Chinchilla 等縮放法則,提出了一個可以根據模型超參數準確預測模型最終損失的公式。
通過對 1,535 個不同配置的 Transformer 模型進行實驗,研究驗證了基於內存複製操作的估計方法的準確性,並得出了一個重要的結論:與普遍的做法相反,模型應該更寬而不是更深,因為速度的提升所帶來的收益超過了深度的收益。
傳統基於 FLOPs 的時間估計方法並不可靠,而基於內存複製操作的估計方法則更為準確。
模型的最終損失可以通過模型的超參數和訓練時間來預測。
模型應該更寬而不是更深,因為速度的提升所帶來的收益超過了深度的收益。