本論文は、大規模言語モデル(LLM)の推論における計算コストと記憶容量の課題に取り組むため、Mixture-of-Experts(MoE)アーキテクチャをベースとした新しいシステムであるPre-gated MoEを提案している。
主な内容は以下の通り:
従来のMoEアーキテクチャには2つの主要な課題がある:
先行研究のCPUオフロード手法は上記の課題に部分的に対処するものの、専門家の選択と実行の間の順序依存性の問題を解決できていない。
Pre-gated MoEは、アルゴリズムとシステムの共同設計によって、これらの課題を効果的に解決する:
評価の結果、Pre-gated MoEは従来手法と比べて大幅な推論性能の向上(最大55倍)と、GPUメモリ使用量の大幅な削減(最大4.2倍)を実現できることを示した。これにより、単一GPUでも大規模LLMを効率的に展開できる。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések