大型語言模型(LLM)在各領域展現出強大能力,推動了基於 LLM 的網路服務和應用程式的發展。然而,LLM 的自回歸特性導致現有的批次推論方法存在閒置計算問題,影響了推論效率。
現有批次推論方法在處理不同長度查詢時會產生閒置計算,因為批次中的所有查詢都必須等待最長查詢完成才能進行下一次迭代。此外,將新查詢插入正在處理的批次中也存在挑戰,因為需要對齊向量維度並避免額外的預填充計算。
為了解決上述問題,本文提出了 BATON,這是一種透過動態調整處理批次來增強 LLM 批次推論效率的方案。BATON 主要包含兩個關鍵技術:
實驗結果顯示,與現有最佳方案 Orca 相比,BATON 在查詢處理吞吐量方面提升了 1.29 到 1.75 倍。
BATON 透過動態重新批次處理有效提高了 LLM 的批次推論效率,為構建高效的 LLM 推論服務系統提供了新的思路。
翻譯成其他語言
從原文內容
arxiv.org
深入探究