核心概念
Expert Routerは、複数の専門家モデルを効率的に管理・調整することで、大規模言語モデルの推論処理の高スループット化を実現する。
摘要
本研究では、Expert Routerと呼ばれる新しいシステムを提案している。Expert Routerは、大規模言語モデル(LLM)の推論処理を効率的に管理・調整するためのシステムである。
具体的には以下の特徴を持つ:
- 中央のルーティングゲートウェイを通じて、入力リクエストを利用可能な複数のLLMモデルに分散して割り当てる
- k-meansクラスタリングアルゴリズムを用いて、入力プロンプトを適切なLLMモデルに振り分ける
- 個別のLLMモデルをTensorRTで最適化し、GPUリソースを効率的に活用する
- 大規模な並行ユーザ環境(最大1,000ユーザ)でも高スループットを維持できることを実証
実験の結果、Expert Routerは単一の大規模LLMモデルと比べて、ユーザ視点での応答時間や全体的なスループットが向上することが示された。特に、並行ユーザ数が増加する状況下で、その効果が顕著に現れた。
統計資料
本システムは最大1,000人の並行ユーザに対応可能
70億パラメータのLLMモデルを8台のGPUで並列処理可能
13億パラメータのLLMモデルでは、FP8量子化により65GBのKVキャッシュを確保可能
引述
"Expert Routerは、複数の専門家モデルを効率的に管理・調整することで、大規模言語モデルの推論処理の高スループット化を実現する。"
"実験の結果、Expert Routerは単一の大規模LLMモデルと比べて、ユーザ視点での応答時間や全体的なスループットが向上することが示された。特に、並行ユーザ数が増加する状況下で、その効果が顕著に現れた。"