核心概念
Mixture-of-Experts (MoE) モデルは、標準的なデンスモデルに比べて、知識集約型のタスク、特に記憶が必要とされるタスクにおいて優れた能力を発揮する一方、推論能力はデンスモデルに及ばない。
タイトル: 混合型Parrotsモデル:専門家は推論よりも記憶の向上に貢献する
著者: Samy Jelassi, Clara Mohri, David Brandfonbrener, Alex Gu, Nikhil Vyas, Nikhil Anand, David Alvarez-Melis, Yuanzhi Li, Sham M. Kakade, Eran Malach
投稿先: ICLR 2025 (査読中)
本論文は、Mixture-of-Experts (MoE) モデルと標準的なデンス型Transformerの性能比較を通して、MoEモデルの推論能力と記憶能力について考察することを目的とする。