大規模言語モデルの重要な特徴であるグラディエントを活用することで、従来のプルーニング手法よりも高い性能を達成できる。
本論文は、大規模言語モデルを効率的にプルーニングするための新しい手法BESAを提案する。BESAは、ブロック単位の再構成誤差を最小化することで、レイヤー単位のプルーニング手法よりも優れたパフォーマンス劣化を抑えることができる。さらに、パラメータ効率的なスパース性学習アルゴリズムを導入することで、大規模な言語モデルを効率的にプルーニングできる。
大規模言語モデルの重要な特徴を考慮したプルーニング手法Wandaを提案し、既存手法と比較して優れた性能を示す。