本論文では、層正規化の幾何学的な効果について詳しく分析している。層正規化は、ベクトルの一様ベクトルに沿った成分を除去し、残りのベクトルを正規化し、スケーリングするという3つのステップで定義できることを示した。この操作は不可逆であり、一様ベクトルに沿った情報は失われる。一方、RMSNormはこの操作を行わず、同等の性能を示すことから、一様ベクトルに沿った情報は重要ではないことが示唆される。
実験では、LayerNorm系とRMSNorm系のモデルの内部表現を分析した。その結果、LayerNorm系モデルの内部表現は一様ベクトルに直交しており、一様ベクトルに沿った成分を除去する操作は冗長であることが分かった。さらに、RMSNorm系モデルの内部表現も自然と一様ベクトルに直交するようになることが示された。
以上より、一様ベクトルに沿った成分を除去する操作は不要であり、RMSNormの使用を推奨する。RMSNormは計算効率も良く、同等の性能を示すため、LayerNormに代わる有力な選択肢となる。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問