本研究は、Meta社のLLaMA3モデルの低ビット量子化性能を包括的に評価したものである。
具体的には以下の通り:
10種類の代表的な量子化手法(PTQ、LoRA-FTの2つのトラック)を用いて、LLaMA3-8BおよびLLaMA3-70Bモデルを1ビットから8ビットまでの範囲で量子化し、性能を評価した。
PTQ手法の評価では、WikiText2、PTB、C4データセットのパープレキシティ、および5つのゼロショット課題(PIQA、Winogrande、ARC-e/c、HellaSwag)で検証した。
LoRA-FT手法の評価では、5ショットMMULベンチマークと上記5つのゼロショット課題で検証した。
実験結果から、LLaMA3モデルは低ビット量子化に対して非無視できる性能劣化を示しており、特に超低ビット幅(2ビット以下)で顕著な問題が見られた。一方で、LLaMA3-70Bモデルは量子化に対してより頑健であることが示された。
これらの知見は、LLMの低ビット量子化に関する今後の課題と方向性を示唆するものである。
To Another Language
from source content
arxiv.org
Ключові висновки, отримані з
by Wei Huang,Xu... о arxiv.org 04-23-2024
https://arxiv.org/pdf/2404.14047.pdfГлибші Запити