本研究では、大規模言語モデルの代表例であるLLaMAv2-Chatモデルを対象に、4ビット重み量子化を行う際の課題を分析している。具体的には、マルチヘッド自己注意機構の順伝播と逆伝播の特性を詳細に調べ、o-projection層とv-projection層が量子化誤差に対して特に脆弱であることを明らかにした。
この分析に基づき、ov-freezeと呼ばれる手法を提案した。ov-freezeでは、o-projection層とv-projection層の重みを量子化後の値に固定し、他の層のみを微調整する。これにより、量子化誤差の影響を最小限に抑えつつ、全体の精度を大幅に改善できることを示した。
実験の結果、ov-freezeを用いた4ビット重み量子化モデルは、浮動小数点精度モデルと比べて0.7%以内の精度低下に抑えられ、従来手法と比べて大幅な性能向上を達成した。このように、本研究は大規模言語モデルの高精度な量子化を実現する上で重要な知見を提供している。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問