大規模言語モデル(LLM)の量子化において、精度とパフォーマンス、コスト効率のバランスを最適化するには、モデルの規模、ハードウェア、ユースケース、デプロイメントシナリオに応じて、適切な量子化フォーマットとアルゴリズムを選択することが重要である。
大規模言語モデル(LLM)において、重要なレイヤーを高いビット精度で量子化し、重要度の低いレイヤーを低いビット精度で量子化することで、モデルの性能低下を抑えつつ、大幅な圧縮を実現できる。
本稿では、大規模言語モデル(LLM)の重み行列を1ビットに量子化することで、LLMの軽量化と高速化を実現するOneBitと呼ばれるフレームワークを提案する。
L4Qは、量子化誤差を効果的に削減するために、量子化対応トレーニング(QAT)とLoRAを統合した新しい量子化対応ファインチューニング手法であり、メモリ効率の高いトレーニングと高精度な量子化モデルの両立を実現する。
大規模言語モデル(LLM)の量子化における重要な技術であるGPTQを、よりシンプルでスケーラブル、かつ高性能なCDQuantというGreedy Coordinate Descentを用いた手法によって改善する。
大規模言語モデルの量子化において、局所的な量子化誤差の最小化を目的とする事後量子化手法(GPTQ)は、大域的な損失関数を最小化する量子化対応ファインチューニング(QAFT)に比べて、特に低精度化において性能が大幅に劣る。これは、量子化による重み摂動が、事前学習収束点における損失関数の吸引領域の大きさを超える場合に、局所的な損失関数の最小化と大域的な損失関数の最小化が一致しないために発生する。
大規模言語モデル(LLM)のメモリ要件を軽減するために、チャネル単位で精度を調整する新しい混合精度量子化手法であるCMPQが提案され、従来の手法よりも高い性能とメモリ効率を実現できることが示された。
大規模言語モデル(LLM)のメモリ容量と帯域幅の制約に対処するため、高密度重み領域とFP高精度領域のアラインメントを重視した、事後訓練重みのみ量子化手法DAQが提案された。
トレーニング済み大規模言語モデル(LLM)の量子化後の性能は、これまで予測が困難でしたが、本研究では、量子化後の性能に影響を与える主要なスケーリングファクターを特定し、それらを統計モデルに組み込むことで、量子化後のLLMの性能をある程度の精度で予測できることを示しました。
QSpecは、低精度活性化量子化と高精度重みのみの量子化を組み合わせた新しい量子化パラダイムであり、推論の高速化とメモリ消費の削減を実現しながら、従来の低精度量子化手法で見られるような、特に多段階推論タスクにおけるパフォーマンス低下を抑制する。