核心概念
EcoServe 透過時間同步批次處理、請求處理解耦和 KVC 流水線利用等方法,最大化了 LLM 服務中的 GPU 和 KVC 資源利用率,同時保證了服務等級目標 (SLO)。
摘要
EcoServe 系統架構與功能
本研究論文介紹了一種名為 EcoServe 的新型 LLM 服務系統,旨在解決現有 LLM 推論過程中存在的 GPU 記憶體瓶頸和資源利用率低下的問題。EcoServe 主要透過以下三個核心元件實現其目標:
-
時間同步批次處理與請求處理解耦(SyncDecoupled): EcoServe 採用時間同步批次處理,將具有相同預測回應長度的請求分組,並將請求處理過程解耦為提示處理任務(PT)和標記生成任務(GT),分別利用 GPU 和 KVC 資源,從而最大化資源利用率並減少排程時間。
-
PT 和 GT 佇列排序(Ordering): EcoServe 根據請求的 JCT SLO、佔用 KVC 空間大小以及預測回應長度或提示長度對 PT 和 GT 佇列進行排序,優先處理佔用較多 KVC 空間或具有較長回應長度的請求,以盡早釋放資源並滿足 SLO 要求。
-
KVC 流水線利用(KVCPipeline): EcoServe 提出了一種新穎的 KVC 流水線利用方法,允許 GT 共享已分配但未使用的 KVC 空間,從而提高 KVC 利用率。
EcoServe 系統評估與比較
實驗結果顯示,與現有的 LLM 排程器(如 vLLM、Orca 和 FastGen)相比,EcoServe 在維持相同延遲水平的情況下,吞吐量提升高達 4 倍,作業完成時間(JCT)縮短高達 91%,SLO 滿足率提升高達 91%。
EcoServe 系統的優勢與貢獻
EcoServe 的主要優勢在於其能夠有效解決現有 LLM 服務系統中存在的資源利用率低下和 SLO 難以保證的問題。其主要貢獻包括:
- 深入的基於追蹤的實驗分析,為系統設計奠定了基礎;
- 一個新穎的 EcoServe 系統,實現了上述目標,而這些目標是現有方法無法實現的;
- EcoServe 的實際實現和全面的基於追蹤的效能評估。
EcoServe 系統的未來發展方向
未來,EcoServe 可以進一步探索以下發展方向:
- 研究如何將 EcoServe 應用於其他類型的深度學習模型推論服務;
- 探討如何進一步優化 EcoServe 的排程演算法和 KVC 流水線利用策略;
- 開發基於 EcoServe 的 LLM 服務平台,為廣大用戶提供高效、可靠的 LLM 服務。
統計資料
Facebook 每天處理超過 2 千兆次推論請求。
在 AWS 上,推論佔機器學習生產成本的 90% 以上。
ChatGPT 的營運成本約為每天 70 萬美元,用於 28,936 個 GPU。
預計到 2028 年,資料中心的 LLM 相關成本將超過 760 億美元。
EcoServe 在 ShareGPT 上可以承受比 vLLM 高 2.5-4 倍的請求速率,比 Orca 高 22-64 倍,比 FastGen 高 1.25-2.25 倍。
EcoServe 在 BookCorpus 上可以承受比 vLLM 高 2.5-2.8 倍的請求速率,比 Orca 高 12.5-13 倍,比 FastGen 高 1.88-2.33 倍。
EcoServe 在 Alpaca 上可以承受比 vLLM 高 1.13-2.14 倍的請求速率,比 Orca 高 5.6-9 倍,比 FastGen 高 1.2-1.24 倍。
引述
"LLM 推論面臨著 GPU 記憶體瓶頸的固有問題,導致 GPU 利用率和吞吐量低下。"
"據我們所知,現有排程器尚未實現此目標。"
"EcoServe 將吞吐量提高了 4 倍,同時保持了相同的延遲水平,產生了高達 91% 的較低作業完成時間 (JCT) 和高達 91% 的較高 SLO 滿足率。"