Core Concepts
NoMAD-Attention proposes an efficient attention algorithm that replaces MAD operations with in-register lookups, achieving significant speedups in LLM inference on CPUs.
Abstract
最近のCPUには、SIMDレジスタという高速な情報取得機能があり、これを活用してMAD操作を置き換えることで、NoMAD-AttentionはCPU上のLLM推論で大幅な高速化を実現します。この研究は、従来のMADベースのアプローチに比べてモデル品質を維持しつつ、CPUアーキテクチャ上の大規模言語モデル推論の効率向上を目指しています。
Stats
大規模言語モデル推論における2倍の高速化を達成しました。
16kコンテキスト長で4ビット量子化LLaMA-7Bベースモデルを最大2倍高速化しました。
Quotes
"Through hardware-aware algorithmic designs, NoMAD-Attention achieves the computation of attention scores using repeated fast accesses to SIMD registers despite their highly limited sizes."
"NoMAD-Attention significantly speeds up LLM inference without sacrificing model quality and is compatible with pre-trained attention-based transformers without finetuning."
"Our results are reproducible at https://github.com/tonyzhang617/nomad-dist."