本論文では、長文コンテキストの大規模言語モデル(LLM)を効率的に提供するLoongServeシステムを提案している。
LLMのコンテキストウィンドウが急速に増大しており、リクエストの長さや処理フェーズによってリソース使用量が大きく変動するという課題がある。従来の静的な並列化手法では、このような動的な変動に効率的に対応できない。
そこでLoongServeでは、エラスティックシーケンス並列化(ESP)を提案し、リアルタイムに並列度を動的に調整することで、リクエストの変動に柔軟に対応する。具体的には、以下の3つの機能を実現している:
さらに、LoongServeではスケジューリングアルゴリズムを提案し、リアルタイムに効率的なスケジューリングを行う。
評価の結果、LoongServeは従来手法と比べて最大スループットを最大3.85倍、5.81倍向上させることができた。
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Bingyang Wu,... às arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.09526.pdfPerguntas Mais Profundas