本論文は、大規模言語モデル(LLM)の高効率な圧縮手法「CBQ」を提案している。
まず、CBQは重みと活性化の極端な外れ値を検出・抑制する「粗粒度から細粒度」の前処理手法を導入する。これにより、量子化の再構成誤差を大幅に低減できる。
次に、CBQは複数のトランスフォーマーブロックを同時に最適化する「ブロック間依存性」の手法を提案する。これにより、ブロック間の依存関係を考慮した最適化が可能となり、累積誤差を抑制できる。
さらに、CBQは重みの量子化誤差を適応的に補正する「LoRA-Rounding」手法を導入する。これにより、重みの量子化精度を大幅に向上できる。
これらの革新的な手法により、CBQは従来手法を大きく上回る性能を発揮し、特に4ビットや2ビットの超低ビット量子化設定においても優れた性能を示す。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies