Główne pojęcia
大規模言語モデル(LLM)において、重要なレイヤーを高いビット精度で量子化し、重要度の低いレイヤーを低いビット精度で量子化することで、モデルの性能低下を抑えつつ、大幅な圧縮を実現できる。
Streszczenie
LLMのレイヤー単位量子化に関する研究論文の概要
この研究論文では、大規模言語モデル(LLM)のメモリサイズを削減するための新しい量子化手法が提案されています。従来の量子化手法では、モデルのすべてのレイヤーを単一のビット精度に量子化していましたが、この論文では、レイヤーの重要度に応じて異なるビット精度で量子化を行う手法が提案されています。
LLMのメモリサイズを削減しつつ、性能低下を抑えるための、より効果的な量子化手法を開発すること。
LLMの各レイヤーの重要度を測定する2つの指標を提案:
Layer Input Modification (LIM): レイヤーが入力表現をどの程度変更するかを測定する。
Z-score Distribution (ZD): レイヤー内のパラメータの分布を測定する。
重要度スコアに基づいてレイヤーをランク付けし、重要度の高いレイヤーは高いビット精度(例:4ビット)、重要度の低いレイヤーは低いビット精度(例:2ビット)で量子化する。
2つの主要な量子化技術を使用:
GPT-Q: GPTモデル用に設計された事後トレーニング量子化技術。
Quanto: 迅速な量子化を実現する、モデルのすべてのレイヤーにわたって均一なスケーリング係数を適用する事後トレーニング量子化技術。