核心概念
HOBBITは、混合精度エキスパートオフロードを用いることで、メモリ制約のあるデバイス上でのMoEベースの大規模言語モデルの推論を高速化するシステムである。
要約
HOBBIT: メモリ制約のあるデバイスにおける高速MoE推論のための混合精度エキスパートオフロードシステム
Peng Tang, Jiacheng Liu, Xiaofeng Hou, Yifei Pu, Jing Wang, Pheng-Ann Heng, Chao Li, Minyi Guo. (2024). HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference.
大規模言語モデル(LLM)の性能向上に貢献するMixture-of-Experts (MoE) アーキテクチャは、メモリ制約の厳しいエッジデバイスへの導入が課題となっている。本研究では、メモリ要件を緩和しつつ、従来のエキスパートオフロード手法の課題であったエキスパートロードコストの増大やモデル精度の低下を克服する、高速かつ柔軟なMoE推論を実現する混合精度エキスパートオフロードシステムHOBBITを提案する。