Core Concepts
本稿では、計算の冗長性をゼロに抑え、データ中心とモデル中心の両方の構成に対応し、ヘテロジニアス環境での利用も可能な、効率的なMoE高速化フレームワークであるHEXA-MoEを提案する。
Abstract
HEXA-MoE: 計算の冗長性をゼロに抑えた、効率的でヘテロジニアス対応のMoE高速化手法
本稿では、Transformerモデルのパラメータを効率的にスケールアップするための実用的手法であるMixture-of-Experts (MoE) の高速化フレームワーク、HEXA-MoEについて解説する。
Transformerは、自然言語処理、コンピュータビジョン、マルチモーダル学習など、幅広い機械学習タスクにおいて標準的なアーキテクチャとなっている。モデルのパラメータ数を増やすことで学習能力と汎化能力が向上することが知られているが、計算量の増加が課題となる。MoEは、計算のオーバーヘッドをサブ線形に抑えながらパラメータ数をスケールアップするための効果的なアプローチとして注目されている。
従来のMoEモデルは、分散デバイス上でのエキスパート並列処理で構築されることが一般的であった。しかし、この手法は、均質なデバイスへの展開を前提としており、通信オーバーヘッドと計算の冗長性が課題となっていた。