Główne pojęcia
穩定的預訓練對於實現更好的語言模型性能至關重要。我們提出使用Token Embedding Variability (TEV)作為一個簡單高效的代理來評估具有預層歸一化的語言模型的預訓練穩定性。此外,我們提出了Multi-head Low-Rank Attention (MLRA)作為一種架構,通過限制輸出嵌入變異的指數增長來緩解這種不穩定性,從而防止梯度爆炸。
Streszczenie
本文探討了語言模型預訓練的穩定性問題。作者指出,隨著模型深度的增加,預訓練過程中常會出現損失函數的突然飆升,這表明模型在訓練過程中存在不穩定性。作者提出了以下兩個主要貢獻:
-
Token Embedding Variability (TEV)作為評估預訓練穩定性的簡單高效代理:
- 理論分析表明,在具有預層歸一化的模型中,token嵌入層的標準差(TEV)最能反映梯度噪聲的水平。
- 實驗結果顯示,隨著模型規模的增大,TEV的均值和標準差都在下降,這與模型性能的提高相吻合。
-
Multi-head Low-Rank Attention (MLRA)架構:
- MLRA通過限制輸出嵌入方差的指數增長來緩解不穩定性,從而防止梯度爆炸。
- 理論分析表明,MLRA可以有效降低梯度方差,並在實驗中證明了MLRA可以提高預訓練的穩定性和下游性能,尤其是在更深的模型中。
總的來說,本文提出了一種簡單有效的方法來評估和提高大型語言模型的預訓練穩定性,對於構建更強大的語言模型具有重要意義。
Statystyki
隨著模型規模的增大,TEV的均值和標準差都在下降。
MLRA在不同層數的模型中都表現出最低的TEV均值、標準差和困惑度。
Cytaty
"穩定的預訓練對於實現更好的語言模型性能至關重要。"
"我們提出使用Token Embedding Variability (TEV)作為一個簡單高效的代理來評估具有預層歸一化的語言模型的預訓練穩定性。"
"我們提出了Multi-head Low-Rank Attention (MLRA)作為一種架構,通過限制輸出嵌入變異的指數增長來緩解這種不穩定性,從而防止梯度爆炸。"