Core Concepts
量子化による出力誤差を直接的に最小化するバイアス補償手法を提案し、従来の最適化手法よりも効率的に低精度量子化を実現する。
Abstract
本論文では、深層学習モデルの量子化による出力誤差を最小化するバイアス補償(Bias Compensation, BC)手法を提案している。従来の量子化手法は、量子化プロセスの最適化を目的としていたが、非凸最適化問題であるため、低精度量子化での性能回復が困難であった。
一方、BCは量子化された層の出力にバイアスベクトルを付加することで、出力誤差を直接的に最小化する。BCの最適化問題は凸最適化問題であり、簡単に最適解を求めることができる。また、BCは既存の量子化手法と組み合わせることができ、追加の計算コストもほとんどない。
実験では、ビジョントランスフォーマーモデルと大規模言語モデルに対してBCを適用し、大幅な性能向上を確認した。特に、ViT-B*モデルの4ビット量子化精度でPTQ4VITの精度を36.89%向上させ、OPT-350Mの3ビット量子化精度でGPTQのパープレキシティを5.97減少させた。
Stats
ViT-B*モデルの4ビット量子化精度でPTQ4VITの精度を36.89%向上させた。
OPT-350Mの3ビット量子化精度でGPTQのパープレキシティを5.97減少させた。