事前学習の安定性は言語モデルの性能向上に不可欠であるが、勾配分散の計算は計算コストが高い。我々は、トークン埋め込み変動性(TEV)を事前学習の安定性を簡単かつ効率的に評価するための代替指標として提案する。さらに、多頭注意の低ランク射影行列(MLRA)を導入し、TEVを低減し、深層モデルでの性能向上を実現する。