本文提出了一個名為ScaleLLM的優化大型語言模型(LLM)服務系統,以滿足現實世界商業應用的需求。
分析了大型語言模型服務的關鍵瓶頸,發現除了本地推理速度外,網關延遲也是一個重要因素。
針對網關和服務引擎兩個關鍵模塊進行了優化:
實驗結果顯示,與基線方案相比,ScaleLLM在64個並發請求下可以實現4.3倍的速度提升,並且在高並發情況下的吞吐量也超過了最新的同類系統1.5倍。
最後,提出了一個動態負載均衡系統的藍圖設計,能夠根據並發請求的變化,動態調整不同並行策略的服務引擎,以維持高吞吐的服務性能。
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Yuhang Yao, ... ב- arxiv.org 09-12-2024
https://arxiv.org/pdf/2408.00008.pdfשאלות מעמיקות