核心概念
大規模言語モデル(LLM)における混合専門家(MoE)モデルの効率的な展開と推論を可能にするために、専門家間プルーニングと専門家内低ランク分解の2段階圧縮手法であるMoE-I2が提案されている。
要約
MoE-I$^2$:専門家間プルーニングと専門家内低ランク分解による混合専門家モデルの圧縮
Cheng Yang, Yang Sui, Jinqi Xiao, Lingyi Huang, Yu Gong, Yuanlin Duan, Wenqi Jia, Miao Yin, Yu Cheng, Bo Yuan. (2024). MoE-I$^2$: Compressing Mixture of Experts Models through Inter-Expert Pruning and Intra-Expert Low-Rank Decomposition. arXiv preprint arXiv:2411.01016v1.
この論文は、混合専門家(MoE)モデルのサイズと計算コストを削減し、展開と推論の効率を高めることを目的としています。