核心概念
MoEモデルの推論コストを大幅に削減するために、構造化プルーニングと非構造化プルーニングを組み合わせた新しいプルーニング手法を提案する。
要約
本論文では、大規模言語モデル(LLM)の推論コストを削減するための新しいプルーニング手法を提案している。LLMはさまざまなタスクで優れた性能を示しているが、膨大なパラメータ数のため推論コストが高くなるのが課題となっている。
提案手法は、Mixture-of-Experts(MoE)アーキテクチャを活用し、構造化プルーニングと非構造化プルーニングを組み合わせた「STUN」と呼ばれる手法である。まず、エキスパートレベルの構造化プルーニングを行い、次に非構造化プルーニングを適用する。
構造化プルーニングでは、エキスパート間の類似性に基づいてグリーディーに選択的にエキスパートを削除する。これにより、パフォーマンスを維持しつつ、後の非構造化プルーニングに対するロバスト性も高められる。
提案手法は、従来の組み合わせ探索ベースのエキスパートプルーニングに比べて計算量が大幅に削減されており(O(1)vs. O(kn√n))、かつ性能も優れている。
480Bパラメータの大規模MoEモデルSnowflake Arcticに対して、1台のH100GPUと2時間で40%の高スパース化を実現しつつ、一般化タスクでの性能を維持できることを示している。さらに、非MoEモデルにも適用可能であり、従来の非構造化プルーニングを上回る結果を得ている。
統計
480Bパラメータのモデルに対して、1台のH100GPUと2時間で40%の高スパース化を実現できる。
一般化タスクでの性能を維持できる。
引用
「構造化プルーニングは、後の非構造化プルーニングに対するロバスト性を維持する」
「提案手法は、従来の組み合わせ探索ベースのエキスパートプルーニングに比べて計算量が大幅に削減されている」