Core Concepts
大規模言語モデルの量子化において、早期に現れる外れ値チャンネルの影響を軽減するために、入力の量子化認識学習と出力の尖度正則化を組み合わせた手法を提案する。
Abstract
本研究は、大規模言語モデルの量子化における外れ値チャンネルの問題に取り組んでいる。
まず、大規模言語モデルの学習過程で外れ値チャンネルが早期に出現することを示した。特に、残差接続を持つ層の入力に多くの外れ値チャンネルが見られる。
そこで、入力の量子化認識学習(QAT)と出力の尖度正則化を組み合わせた手法を提案した。QATにより入力の外れ値を抑制し、出力の尖度正則化により重みの外れ値の発生を防ぐ。
この手法を用いて1B規模の言語モデルを学習したところ、4ビット量子化モデルの性能が、16ビット基準モデルと遜色ない水準まで向上した。一方、QATのみでは重みの量子化が困難になる問題があり、提案手法の有効性が示された。
さらに、300M規模のモデルでも同様の傾向が確認された。ただし、小規模モデルではQATのみでも一定の効果が得られ、提案手法の効果は相対的に小さかった。
本研究の成果は、大規模言語モデルの効率的な量子化に貢献するものと期待される。
Stats
1Bモデルの4ビット量子化時のパープレキシティは、基準の16ビットモデルと遜色ない水準まで向上した。
300Mモデルでも同様の傾向が確認された。