Core Concepts
本論文は、大規模言語モデルの効率的な FPGA ベース空間加速の可能性を包括的に分析し、その設計上の考慮事項を明らかにする。
Abstract
本論文は、大規模言語モデル(LLM)の効率的な FPGA ベース空間加速の可能性を包括的に分析している。
まず、LLMの推論プロセスにおける計算リソースと記憶リソースの要件を詳細に分析する。この分析に基づき、FPGA上での LLMの空間加速の利点と限界を明らかにする。
次に、FPGA上での LLM加速のための包括的な分析フレームワークを提案する。このフレームワークは、特定のFPGA上での加速器の性能を推定するだけでなく、LLM加速器の設計指針も提供する。
さらに、BERT and GPT2モデルを使って、提案手法の有効性を検証する。実験結果は、提案手法が従来のFPGA ベースアクセラレータに比べて最大13.4倍の高速化を達成できることを示している。GPT生成推論では、DFX FPGAオーバーレイに比べて2.2倍の高速化と5.7倍のエネルギー効率向上を実現している。
Stats
LLMの推論プロセスにおける線形演算子の乗算加算(MAC)数:
事前充填ステージのQ/K/V線形演算子: 3ld^2
事前充填ステージのMatmul1: l^2d
事前充填ステージのMatmul2: l^2d
事前充填ステージのProjection: ld^2
事前充填ステージのFFN1: ldd_FFN
事前充填ステージのFFN2: ldd_FFN
生成ステージのQ/K/V線形演算子: 3d^2
生成ステージのMatmul1: (l+1)d
生成ステージのMatmul2: (l+1)d
生成ステージのProjection: d^2
生成ステージのFFN1: dd_FFN
生成ステージのFFN2: dd_FFN