本論文では、言語モデルの事前学習の安定性を評価する新しい指標としてトークン埋め込み変動性(TEV)を提案している。
勾配分散の計算は計算コストが高いため、実用的ではない。一方、トークン埋め込み層は事前学習の安定性を最も良く反映する。
TEVは、トークン埋め込みの標準偏差の分布を表す指標で、安定した事前学習では平均(µTEV)と標準偏差(σTEV)が低くなる。
多頭注意の低ランク射影行列(MLRA)を提案し、TEVを低減することで、深層モデルでの性能向上を実現した。
実験の結果、MLRA適用時のGPT-2モデルでは、µTEVとσTEVが低く、パープレキシティも大幅に改善された。特に、モデルが深くなるほど、その効果が顕著であった。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania