Основні поняття
大規模言語モデル(LLM)の量子化において、精度とパフォーマンス、コスト効率のバランスを最適化するには、モデルの規模、ハードウェア、ユースケース、デプロイメントシナリオに応じて、適切な量子化フォーマットとアルゴリズムを選択することが重要である。
Анотація
大規模言語モデルの量子化における精度とパフォーマンスのトレードオフ:包括的な分析
この論文は、大規模言語モデル(LLM)の量子化における、異なる量子化フォーマットが精度とパフォーマンスに及ぼす影響を包括的に調査したものである。
本研究は、LLM量子化における主要な量子化フォーマットの精度とパフォーマンスのトレードオフを包括的に調査し、実用的なガイドラインを提供することを目的とする。
Llama-3.1モデルファミリー(8B、70B、405B)を用いて、FP8、INT8、INT4といった主要な量子化フォーマットを評価。
Open LLM Leaderboard V1/V2、Arena-Hard-Auto-v0.1、HumanEval、HumanEval+などのベンチマークを用いて、量子化モデルの精度を評価。
量子化モデルと非圧縮モデルの出力間のテキスト類似性分析を実施。
主要なGPUアーキテクチャ(A6000、A100、H100)とvLLMフレームワークを用いて、様々なユースケースにおける量子化モデルの推論パフォーマンスをベンチマーク。