核心概念
LLM-Inference-Bench 是一個全面的基準測試套件,用於評估各種 AI 加速器上大型語言模型的推理效能,揭示不同模型、硬體平台和推理框架的優缺點,並提供交互式儀表板以幫助識別最佳效能配置。
這篇研究論文介紹了 LLM-Inference-Bench,這是一個全面的基準測試套件,旨在評估各種 AI 加速器上大型語言模型 (LLM) 的推理效能。
研究目標:
評估不同 AI 加速器上 LLM 的推理效能,包括 Nvidia 和 AMD 的 GPU,以及 Intel Habana 和 SambaNova 等專用 AI 加速器。
分析影響 LLM 推理效能的因素,例如模型參數大小、輸入序列長度、生成的輸出標記數量和批次大小。
提供有關各種模型、硬體平台和推理框架的優缺點的見解。
方法:
該研究使用了一系列 SOTA LLM 進行基準測試,範圍從 70 億到 700 億個參數,包括 LLaMA、Mistral 和 Qwen 家族的模型。
評估在各種硬體平台上進行,包括 Nvidia A100、Nvidia H100、Nvidia GH200、AMD MI300X、AMD MI250 GPU,以及專用 AI 加速器 SambaNova SN40L 和 Habana Gaudi2。
使用了多種 LLM 推理框架,包括 vLLM、TensorRT-LLM、llama.cpp 和 Deepspeed-MII。
考慮了多種效能指標,包括延遲、吞吐量、功耗和驗證指標(例如困惑度)。
主要發現:
較新的 Nvidia GPU(例如 H100 和 GH200)在 LLM 推理方面顯著優於舊 GPU。
專用 AI 加速器(例如 SambaNova SN40L)在某些情況下提供了卓越的效能。
TensorRT-LLM 等針對 Nvidia GPU 優化的推理框架提供了最高的吞吐量和最低的延遲。
vLLM 是一個用途廣泛的框架,支援各種加速器,並表現出具有競爭力的效能。
模型架構、參數大小和輸入/輸出序列長度顯著影響推理效能。
主要結論:
選擇合適的硬體、推理框架和模型架構對於實現最佳 LLM 推理效能至關重要。
LLM-Inference-Bench 提供了寶貴的資源,用於評估 AI 加速器並根據特定需求做出明智的決策。
該研究強調了持續改進 LLM 推理技術以滿足不斷增長的計算需求的重要性。
意義:
這項研究對快速發展的 AI 加速領域做出了重大貢獻,為研究人員和從業者提供了對 LLM 推理效能的全面理解。這些發現對於選擇硬體、優化推理框架和設計高效的 LLM 架構具有實際意義。
局限性和未來研究:
該研究側重於推理效能,但沒有探討訓練成本或模型準確性。未來的研究可以調查這些方面,並擴展基準測試套件以涵蓋更多 LLM、硬體平台和推理框架。此外,探索新的優化技術(例如模型壓縮和稀疏性)對於進一步提高 LLM 推理效能至關重要。
統計資料
對於 2048 個標記的長度,在 A100 上,批次大小為 64 的吞吐量比批次大小為 1 的吞吐量高 26.6 倍。
{input, output} 大小為 {1024, 128} 的吞吐量是 {input, output} 大小為 {128, 1024} 的 14.6 倍。
在 Gaudi2(8 個 HPU)上,使用 KV 快取的 70B 模型的吞吐量顯著提高(128 個標記的長度約為 2 倍,1024 個標記的長度約為 7 倍)。
在 A100 GPU 上,任何大於或等於 16 的 KV 快取區塊大小都能產生最佳吞吐量。
對於 64 個批次大小,區塊大小為 16 的吞吐量比區塊大小為 8 的吞吐量高 1.27 倍。
在 H100 上使用 FP8 和在 A100 上使用 Int8 可以比 FP16 提供效能優勢。
在 4 個 A100 GPU 上使用 LLaMA-3-8B,TP 比混合方法(TP=2,PP=2)快 1.30 倍,比 PP 快 1.94 倍。
在 H100 和 A100 上,GQA 模型(Mistral-7B 和 LLaMA-3-8B)分別比 LLaMA-2-7B 快約 1.9 倍和 2.79 倍(批次大小為 64)。
對於 64 個批次大小,H100 上的 LLaMA-3-70B 比 A100 快 7.8 倍。
將批次大小從 1 增加到 64 時,H100 上的 LLaMA-3-70B 的吞吐量提高了 39 倍,而 A100 上的吞吐量提高了 3 倍。
在單個 A100 GPU 上,對於 64 個批次大小和 128 個輸入/輸出長度,LLaMA-2-7B 比 LLaMA-3-8B 快 1.18 倍。
對於 64 個批次大小和 2048 個輸入/輸出長度,DS-MII 比 vLLM 快 1.04 倍。