本論文では、大規模言語モデル(LLM)の推論コストを削減するための新しいプルーニング手法を提案している。LLMはさまざまなタスクで優れた性能を示しているが、膨大なパラメータ数のため推論コストが高くなるのが課題となっている。
提案手法は、Mixture-of-Experts(MoE)アーキテクチャを活用し、構造化プルーニングと非構造化プルーニングを組み合わせた「STUN」と呼ばれる手法である。まず、エキスパートレベルの構造化プルーニングを行い、次に非構造化プルーニングを適用する。
構造化プルーニングでは、エキスパート間の類似性に基づいてグリーディーに選択的にエキスパートを削除する。これにより、パフォーマンスを維持しつつ、後の非構造化プルーニングに対するロバスト性も高められる。
提案手法は、従来の組み合わせ探索ベースのエキスパートプルーニングに比べて計算量が大幅に削減されており(O(1)vs. O(kn√n))、かつ性能も優れている。
480Bパラメータの大規模MoEモデルSnowflake Arcticに対して、1台のH100GPUと2時間で40%の高スパース化を実現しつつ、一般化タスクでの性能を維持できることを示している。さらに、非MoEモデルにも適用可能であり、従来の非構造化プルーニングを上回る結果を得ている。
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Jaeseong Lee... о arxiv.org 09-11-2024
https://arxiv.org/pdf/2409.06211.pdfГлибші Запити