Concetti Chiave
生成系大規模言語モデルの推論高速化は、CPU、GPU、FPGA、ASIC、PIM/NDP などの多様なハードウェアプラットフォームと、量子化、スパース化、高速デコーディングなどのソフトウェア最適化手法を組み合わせることで実現できる。
Sintesi
大規模言語モデルの推論高速化:包括的なハードウェア視点からの考察
Li, Jinhao, et al. "Large Language Model Inference Acceleration: A Comprehensive Hardware Perspective." arXiv preprint arXiv:2410.04466 (2024).
本論文は、生成系大規模言語モデル (LLM) の推論高速化について、多様なハードウェアプラットフォームとソフトウェア最適化手法を組み合わせた包括的な調査を行い、エッジデバイスへの展開に向けた将来の動向と可能性を探求することを目的とする。