Core Concepts
短絡接続型MoEアーキテクチャは、従来のMoEにおける通信と計算の相互依存を解消し、大幅な処理速度の向上を実現する。
Abstract
本論文では、短絡接続型MoEアーキテクチャを提案している。従来のMoEでは、通信と計算が相互に依存しており、通信オーバーヘッドが大きな問題となっていた。
提案手法では以下の2つのアーキテクチャを導入することで、この問題を解決している。
DGMoE: 前層と現層の表現を独立に処理することで、通信を部分的に切り離す。
ScMoE: 現層の表現を密結合MLPで処理し、前層の表現とを統合することで、通信を完全に切り離す。
さらに、提案手法では通信と計算の重複実行を可能にする適応的な並列化手法を実装している。
これにより、従来手法と比べて30%~40%の高速化を実現している。一方で、画像認識や言語モデルのタスクにおいても、提案手法は既存手法と同等以上の性能を示している。
本論文の分析から、短絡接続型MoEアーキテクチャの有効性と、画像認識と言語モデルにおけるMoEの特性の違いが明らかになった。今後は、マルチモーダルなMoEアーキテクチャの設計や、ハイパーパラメータの最適化などが課題として挙げられる。
Stats
MoEの通信オーバーヘッドは、8×A30-PCIeの環境では全体の60%を占める
8×A800-NVLinkの環境では通信オーバーヘッドが15%まで低減する
Quotes
短絡接続型MoEアーキテクチャは、従来のMoEにおける通信と計算の相互依存を解消し、大幅な処理速度の向上を実現する。
提案手法のScMoEは、8×A30-PCIeの環境で標準top-2 MoEと比べて、学習速度が30%、推論速度が40%高速化される。
画像認識タスクでは、提案手法のScMoE-2が標準top-2 MoEと同等の精度を達成する。