Core Concepts
大規模言語モデルをモバイル端末のGPUに効率的に展開するための4つの最適化手法を提案する。
Abstract
本論文では、大規模言語モデル(LLM)をモバイル端末のGPUに効率的に展開するための4つの最適化手法を提案している。
動的形状モデルの推論をサポートするための、記号式ベースのアプローチ。これにより、動的形状の導出、メモリの再利用、実行スケジューリングなどが可能になる。
推論速度の向上と端末のラグの低減を目的とした、演算子の最適化と実行優先度の設定。
デクォンタイゼーションのオーバーヘッドを低減するためのFP4量子化手法「M0E4」。
KVキャッシュのコピーを不要にするためのサブテンソルベースの手法。
これらの最適化手法を統合したモバイル推論エンジン「Transformer-Lite」を開発し、2Bから14Bの様々な大規模言語モデルに適用した。その結果、CPU ベースのFastLLMやGPUベースのMLC-LLMと比較して、プリフィル速度は10倍以上、デコーディング速度は2~3倍高速化できた。
Stats
2Bモデルのプリフィル速度は330トークン/秒、デコーディング速度は30トークン/秒
6Bモデルのプリフィル速度は121トークン/秒、デコーディング速度は14トークン/秒
Quotes
「大規模言語モデル(LLM)は、インテリジェントアシスタント、テキストサマリー、翻訳、マルチモーダルタスクなどのモバイル端末上での幅広い用途を示してきた。」
「現在の方法では、モバイル端末上でのLLM展開の推論速度が遅く、ユーザー体験が良くない。」