本研究旨在解決大型語言模型 (LLM) 推論過程中,因預填充和解碼階段的資源分配不均,以及跨實例數據傳輸所導致的延遲問題。
本研究提出 AcceLLM,一種利用冗餘 KV 快取副本實現動態實例和負載平衡的新方法。AcceLLM 將運算實例成對分組,並在實例之間複製 KV 快取,允許實例根據工作負載動態地在預填充和解碼任務之間切換,同時透過平衡每個實例上的請求數量和長度來優化資源利用。
AcceLLM 提供了一種有效且具有成本效益的解決方案,透過利用冗餘數據、動態實例和負載平衡來加速 LLM 推論。
本研究對於提高 LLM 推論效能和效率具有重要意義,尤其是在雲端運算環境中,可以降低延遲並優化資源利用。
未來研究可以探討在記憶體容量有限的情況下,如何進一步優化 AcceLLM 的效能,以及如何將 AcceLLM 應用於其他 LLM 架構和應用程式。
翻譯成其他語言
從原文內容
arxiv.org
深入探究