核心概念
スマートフォンにおけるLLM推論の高速化には、ニューロンの共活性パターンに基づいたフラッシュメモリへの配置最適化が有効である。
要約
Ripple:相関関係認識ニューロン管理を用いたスマートフォンにおけるLLM推論高速化
Wang, T., Fan, R., Huang, M., Hao, Z., Li, K., Cao, T., Lu, Y., Zhang, Y., & Ren, J. (2024). Ripple: Accelerating LLM Inference on Smartphones with Correlation-Aware Neuron Management. arXiv:2410.19274v1 [cs.LG].
本研究は、大規模言語モデル (LLM) をスマートフォンなどのリソース制約のあるデバイスに効率的に展開することを目的とする。特に、LLMの活性化スパース性を利用しながら、フラッシュメモリとDRAM間のI/Oボトルネックを解消することに焦点を当てる。