核心概念
Pre-gated MoEは、従来のMoEアーキテクチャの課題を解決するアルゴリズム・システム共同設計によって、大規模言語モデルの高速かつメモリ効率的な推論を実現する。
摘要
本論文は、大規模言語モデル(LLM)の推論における計算コストと記憶容量の課題に取り組むため、Mixture-of-Experts(MoE)アーキテクチャをベースとした新しいシステムであるPre-gated MoEを提案している。
主な内容は以下の通り:
-
従来のMoEアーキテクチャには2つの主要な課題がある:
- 専門家パラメータの大きなメモリフットプリント
- 動的かつ疎な専門家の活性化
-
先行研究のCPUオフロード手法は上記の課題に部分的に対処するものの、専門家の選択と実行の間の順序依存性の問題を解決できていない。
-
Pre-gated MoEは、アルゴリズムとシステムの共同設計によって、これらの課題を効果的に解決する:
- アルゴリズム面では、従来のゲート関数の役割を変更し、現在のMoEブロックではなく次のMoEブロックの専門家を事前に選択する「pre-gate関数」を導入する。
- システム面では、pre-gate関数を活用して、CPUからGPUへの専門家のオンデマンド転送を重複実行することで、転送オーバーヘッドを隠蔽する。
-
評価の結果、Pre-gated MoEは従来手法と比べて大幅な推論性能の向上(最大55倍)と、GPUメモリ使用量の大幅な削減(最大4.2倍)を実現できることを示した。これにより、単一GPUでも大規模LLMを効率的に展開できる。
統計資料
従来のMoEモデルは、FLOPSに対して75倍もの大きなメモリフットプリントを持つ。
提案手法のPre-gated MoEは、GPU-onlyソリューションと比べて、ピークGPUメモリ使用量を77%削減できる。
引述
「MoEの大きなメモリ要件と動的に活性化される疎な専門家は、実世界の問題への適用を制限している」
「CPUオフロードによる解決策は、専門家の選択と実行の間の順序依存性の問題を根本的に解決できていない」