穩定的預訓練對於實現更好的語言模型性能至關重要。我們提出使用Token Embedding Variability (TEV)作為一個簡單高效的代理來評估具有預層歸一化的語言模型的預訓練穩定性。此外,我們提出了Multi-head Low-Rank Attention (MLRA)作為一種架構,通過限制輸出嵌入變異的指數增長來緩解這種不穩定性,從而防止梯度爆炸。