Conceitos essenciais
本文提出了一種名為 LlamaF 的高效 Llama2 架構加速器,專為嵌入式 FPGA 設計,以提高大型語言模型在資源受限設備上的推理性能。
Resumo
本文提出了 LlamaF,一種專為嵌入式 FPGA 設計的高效 Llama2 架構加速器。主要貢獻包括:
- 通過後訓練量化減少了離線 DDR 記憶體帶寬需求。
- 提出了一種用於分組量化矩陣向量乘法 (GQMV) 的完全流水線加速器。
- 實現了異步 FPGA 計算,在權重傳輸過程中提高了性能。
- 在 Xilinx ZCU102 平台上加速 TinyLlama 1.1B 模型,實驗結果顯示相比於僅在 ZCU102 處理系統 (PS) 上運行,可獲得 14.3-15.8 倍的加速和 6.1 倍的功耗效率提升。
Estatísticas
在 Xilinx ZCU102 平台上,LlamaF 相比於僅在 ZCU102 處理系統 (PS) 上運行,可獲得 14.3-15.8 倍的加速。
LlamaF 在 Xilinx ZCU102 平台上可獲得 6.1 倍的功耗效率提升。