Core Concepts
大規模機械学習モデルの訓練中に発生する数値誤差が、訓練の安定性に及ぼす影響を定量的に分析する。
Abstract
大規模機械学習モデルの訓練では、訓練の安定性が重要な課題となっている。訓練中に発生する損失関数の急激な変動(loss spike)は、訓練の中断を引き起こし、大きなコストを伴う。この訓練の不安定性の原因の1つとして、数値誤差の蓄積が考えられている。
本研究では、数値誤差の影響を定量的に分析するためのフレームワークを提案した。具体的には以下の2つのステップから成る:
マイクロベンチマークを用いて、注意機構の最適化手法であるFlash Attentionの数値誤差を定量化する。数値精度を変化させた実験の結果、Flash Attentionはベースラインの注意機構と比べて約10倍の数値誤差が観測された。
モデルの重みの変化を指標として、この数値誤差がモデルの収束に及ぼす影響を分析する。Wasserstein距離を用いた分析の結果、Flash Attentionの数値誤差は、低精度訓練と比べて2-5倍小さいことが分かった。
これらの結果から、Flash Attentionの数値誤差は、訓練の安定性に大きな影響を及ぼすほど深刻ではないことが示唆された。本研究のフレームワークは、他の最適化手法の数値誤差を定量化し、その影響を分析するのに活用できる。
Stats
Flash Attentionはベースラインの注意機構と比べて、BF16の精度で約10倍の数値誤差が観測された。
Flash Attentionの数値誤差は、低精度訓練と比べて2-5倍小さいことが分かった。