本論文では、言語モデルの事前学習の安定性を評価する新しい指標としてトークン埋め込み変動性(TEV)を提案している。
勾配分散の計算は計算コストが高いため、実用的ではない。一方、トークン埋め込み層は事前学習の安定性を最も良く反映する。
TEVは、トークン埋め込みの標準偏差の分布を表す指標で、安定した事前学習では平均(µTEV)と標準偏差(σTEV)が低くなる。
多頭注意の低ランク射影行列(MLRA)を提案し、TEVを低減することで、深層モデルでの性能向上を実現した。
実験の結果、MLRA適用時のGPT-2モデルでは、µTEVとσTEVが低く、パープレキシティも大幅に改善された。特に、モデルが深くなるほど、その効果が顕著であった。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Woojin Chung... lúc arxiv.org 09-13-2024
https://arxiv.org/pdf/2409.07787.pdfYêu cầu sâu hơn