本論文は、大規模言語モデル(LLM)の圧縮に関する新しい手法BESAを提案している。
従来のレイヤー単位のプルーニング手法は、プルーニングエラーが累積してモデルの出力に大きな影響を与えるという問題がある。
BESAは、ブロック単位の再構成誤差を最小化することで、このような問題を解決する。各ブロックの最適なスパース性を学習することで、パフォーマンス劣化を抑えることができる。
さらに、パラメータ効率的なスパース性学習アルゴリズムを導入することで、大規模な言語モデルを効率的にプルーニングできる。
実験の結果、BESAは既存手法と比べて優れたパフォーマンスを示し、LLaMA-7/13/30/65Bや LLaMA2-7/13/70Bなどの大規模言語モデルを効率的にプルーニングできることが確認された。
BESAはさらに量子化と組み合わせることで、メモリ使用量と推論速度の両面で大幅な改善が可能となる。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Peng Xu,Wenq... at arxiv.org 04-22-2024
https://arxiv.org/pdf/2402.16880.pdfDeeper Inquiries