Core Concepts
FPGAを使ったHLSTransformにより、CPUやGPUと比べてLlama 2のインファレンスにおいて大幅なエネルギー消費の削減と高速化を実現した。
Abstract
本研究では、Llama 2という最先端の大規模言語モデルのインファレンスをFPGAで高水準合成(HLS)を用いて高速化かつエネルギー効率化する手法「HLSTransform」を提案した。
具体的には以下の成果を得た:
- エネルギー消費の大幅な削減
- CPUと比べて最大12.75倍、GPUと比べて最大8.25倍のエネルギー消費の削減を実現
- 高速なインファレンス
- CPUと比べて最大2.46倍高速化
- GPUと比べて0.53倍の速度を維持(GPUのクロック周波数が4倍高い)
- HLSツールの有効性の検証
- HLSツールを使ってFPGA向けの最適化設計を迅速に行えることを示した
- ハードウェア設計の専門知識がなくても使えるツールであることを確認した
本研究成果は、トランスフォーマーモデルのFPGAによるエネルギー効率的なインファレンスの実現に向けた重要な一歩となる。また、HLSツールの活用によりFPGAの利用が容易になり、トランスフォーマーモデルの省エネ推論の研究が促進されることが期待される。
Stats
Llama 2 110M パラメータモデルの量子化モデルのパープレキシティは2.9679、非量子化モデルは2.9667と同等の性能を維持
256トークンの推論において、FPGAはCPUの4.72倍、GPUの14.10倍低い平均消費電力
256トークンの推論において、FPGAはCPUの12.75倍、GPUの8.25倍低いエネルギー消費
Quotes
"GPUは大量のエネルギーを必要とし、環境への懸念、高い運用コスト、エッジコンピューティングに不向きという問題がある。"
"FPGAは消費電力が低く、ハードウェア設計の反復が容易であるため、トランスフォーマーモデルの省エネ推論に適している。"