本論文は、大規模言語モデル(LLM)の効率的な FPGA ベース空間加速の可能性を包括的に分析している。
まず、LLMの推論プロセスにおける計算リソースと記憶リソースの要件を詳細に分析する。この分析に基づき、FPGA上での LLMの空間加速の利点と限界を明らかにする。
次に、FPGA上での LLM加速のための包括的な分析フレームワークを提案する。このフレームワークは、特定のFPGA上での加速器の性能を推定するだけでなく、LLM加速器の設計指針も提供する。
さらに、BERT and GPT2モデルを使って、提案手法の有効性を検証する。実験結果は、提案手法が従来のFPGA ベースアクセラレータに比べて最大13.4倍の高速化を達成できることを示している。GPT生成推論では、DFX FPGAオーバーレイに比べて2.2倍の高速化と5.7倍のエネルギー効率向上を実現している。
翻譯成其他語言
從原文內容
arxiv.org
深入探究