Core Concepts
PipeInfer 是一種新型的大型語言模型推理加速技術,它利用異步流水線推測和早期推理取消等機制,顯著提高了生成速度和系統利用率,同時降低了對推測準確率和互連頻寬的要求。
研究背景
大型語言模型 (LLM) 在語言理解和生成等任務中展現出強大的能力,但其龐大的規模也為推理過程帶來了挑戰,特別是在記憶體頻寬受限的情況下。現有的推測性推理技術雖然可以緩解記憶體頻寬瓶頸,但同時也增加了端到端延遲,並且在推測準確率較低時性能下降。
PipeInfer 方法
PipeInfer 通過以下四個主要組成部分解決了這些問題:
**異步推測:**將目標模型推理流水線與推測模型流水線分離,實現並行處理,從而降低延遲並提高計算效率。
**連續推測:**在空閒時持續生成小型推測批次,提高系統利用率,並通過微型批次和自適應置信度閾值來降低延遲和提高容錯能力。
**流水線 KV 快取多緩衝:**將 KV 快取序列分段,並通過流水線操作來維護推理過程中的一致性,允許推測運行在驗證前就重用已接受的標記的快取條目。
**早期推理取消:**通過反向傳播異步取消信號,從流水線中清除無效運行,減少連續推測在推測模型對齊不良時的性能影響。
實驗結果
實驗結果表明,PipeInfer 在各種模型和硬體配置下均取得了顯著的性能提升:
與標準推測性推理相比,生成速度提高了 1.5 到 2.15 倍。
在推測準確率較低的情況下,性能下降幾乎為零。
在低頻寬互連的情況下,表現出良好的容錯能力。
首個標記延遲與非推測性迭代推理幾乎持平。
系統利用率翻倍。
結論
PipeInfer 是一種高效的 LLM 推理加速技術,它通過異步流水線推測、連續推測、流水線 KV 快取多緩衝和早期推理取消等機制,顯著提高了生成速度和系統利用率,同時降低了對推測準確率和互連頻寬的要求。
Stats
PipeInfer 在測試案例中,與標準推測性推理相比,生成速度提高了約 1.5-2.15 倍。
在良好的模型對齊情況下,觀察到生成速度比流水線並行推測快 1.7 倍。
在模型對齊不良的情況下,觀察到生成速度提高了 2.15 倍。
使用千兆乙太網路作為互連進行測試,結果顯示出對延遲和吞吐量限制的容忍度,並提高了其在這種情況下相對於推測性推理的改進。
TinyLlama 和 Dolphin 模型對的接受率約為 79%。
將 TinyLlama 替換為 Orca 2 7B 後,總體接受率降低至 66%。
Goliath 和 XWin-7B 模型對的接受率極低,僅為 52%。
將 XWin-7B 替換為 XWin-13B 後,接受率提高至 61%。
Falcon-180B 與 Falcon-7B 配對的接受率很高,相對於模型的大小差異,達到了 68.675%。
將 Falcon-7B 替換為 Falcon-40B 後,接受率提高至 69.47%。