핵심 개념
CBQは、ブロック間の依存関係を考慮した量子化手法であり、重みと活性化の極端な外れ値を効果的に抑制し、重みの量子化誤差を適応的に補正することで、大規模言語モデルを高効率に圧縮できる。
초록
本論文は、大規模言語モデル(LLM)の高効率な圧縮手法「CBQ」を提案している。
まず、CBQは重みと活性化の極端な外れ値を検出・抑制する「粗粒度から細粒度」の前処理手法を導入する。これにより、量子化の再構成誤差を大幅に低減できる。
次に、CBQは複数のトランスフォーマーブロックを同時に最適化する「ブロック間依存性」の手法を提案する。これにより、ブロック間の依存関係を考慮した最適化が可能となり、累積誤差を抑制できる。
さらに、CBQは重みの量子化誤差を適応的に補正する「LoRA-Rounding」手法を導入する。これにより、重みの量子化精度を大幅に向上できる。
これらの革新的な手法により、CBQは従来手法を大きく上回る性能を発揮し、特に4ビットや2ビットの超低ビット量子化設定においても優れた性能を示す。
통계
4ビット重み4ビット活性化(W4A4)の量子化設定において、OPT-30Bモデルの正解率は従来手法より4.68ポイント向上した。
4ビット重み8ビット活性化(W4A8)の量子化設定において、LLAMA1-65Bモデルの正解率は従来手法より1.57ポイント向上した。
2ビット重み16ビット活性化(W2A16)の量子化設定において、LLAMA1-30Bモデルの正解率は従来手法より3.38ポイント向上した。
인용구
"CBQは、ブロック間の依存関係を考慮した量子化手法であり、重みと活性化の極端な外れ値を効果的に抑制し、重みの量子化誤差を適応的に補正することで、大規模言語モデルを高効率に圧縮できる。"
"CBQの革新的な手法により、特に4ビットや2ビットの超低ビット量子化設定においても優れた性能を示す。"