本研究論文介紹了 Velocitune,這是一種針對大型語言模型持續預訓練設計的新穎框架,旨在解決現有領域加權方法在持續預訓練情境下的局限性。
大型語言模型 (LLM) 的預訓練資料集通常包含來自不同領域的文字,這些領域具有不同的特徵,例如來源、主題和品質。這些差異會影響 LLM 在下游任務中的表現。現有研究主要集中在從頭開始訓練模型時尋找最佳的領域資料組合,而較少關注持續預訓練的獨特挑戰。
Velocitune 的核心概念是學習速度,它能更準確地評估模型在每個領域的學習效率。與僅根據當前損失與目標損失之間的距離來調整權重的先前方法不同,Velocitune 通過建立學習速度來更精確地捕捉模型在每個領域的學習效果。
在訓練過程中,學習速度較慢的領域會被賦予更高的權重,而學習速度較快的領域則會降低權重,從而促進學習進度的平衡。為了量化學習速度,確定初始損失(反映模型已學習的專業知識)和目標損失(指示每個領域的期望學習目標)至關重要。
為了更經濟高效地估計目標損失,Velocitune 採用了 Chinchilla 比例定律。它沒有使用小型模型,而是利用在子樣本資料上訓練的模型來預測目標參考損失。
為了評估 Velocitune 的有效性,研究人員在兩個設定下進行了實驗:在以推理為中心的資料集上持續預訓練 CodeLlama 7B,以及在專門用於系統命令生成的語料庫上持續預訓練 Llama3 和 Mistral。
實驗結果顯示,Velocitune 在數學和程式碼推理任務以及命令列生成基準測試中均取得了顯著的效能提升。與使用預設權重訓練的基準模型相比,Velocitune 在七項數學任務中平均提高了 1.6%,在兩項程式碼任務中平均提高了 3.8%。此外,Velocitune 在 Llama3 和 Mistral 上的表現也優於基準模型,證明了其在不同模型架構上的有效性。
Velocitune 是一種有效的動態領域加權方法,可以提高大型語言模型在持續預訓練中的效能。它通過平衡不同領域的學習速度,使模型能夠更全面地學習各種任務所需的知識和技能。
本研究存在一些限制,例如 Velocitune 目前僅適用於持續預訓練,尚未在從頭開始的預訓練中進行評估。此外,儘管普遍的監督式微調 (SFT) 資料集具有多領域性質,但尚未探索在 SFT 中應用 Velocitune 的可能性。
未來研究方向包括:
翻譯成其他語言
從原文內容
arxiv.org
深入探究