Core Concepts
단축 연결 기반 MoE 아키텍처를 제안하여 기존 MoE 모델의 통신과 계산 간 의존성을 해결하고, 이를 통해 MoE 모델의 효율성을 크게 향상시킴.
Abstract
이 논문에서는 기존 MoE 모델의 통신과 계산 간 의존성 문제를 해결하기 위해 단축 연결 기반 MoE 아키텍처를 제안한다.
DGMoE 아키텍처: 이전 레이어와 현재 레이어의 표현을 독립적으로 처리하여 통신 부하를 부분적으로 감소시킴.
ScMoE 아키텍처: 현재 레이어의 표현을 고정 MLP 모듈로 처리하여 통신을 완전히 제거함.
제안한 아키텍처들은 적응형 병렬 처리 전략을 통해 통신과 계산을 효과적으로 중첩 실행할 수 있음.
실험 결과, 제안 모델들은 기존 MoE 모델 대비 30-40%의 속도 향상을 보이며, 비전 및 언어 모델 성능도 유지하거나 향상시킴.
단축 연결 MoE 아키텍처의 특성과 비전/언어 모델 간 차이에 대한 분석을 제공함.
Stats
통신이 전체 MoE 시간의 60%를 차지하는 8×A30-PCIe 환경에서 ScMoE 모델은 표준 top-2 MoE 대비 30% 더 빠른 학습 속도와 40% 더 빠른 추론 속도를 보임.
통신이 전체 MoE 시간의 15%를 차지하는 8×A800-NVLink 환경에서 ScMoE 모델은 표준 top-2 MoE 대비 11% 더 빠른 학습 속도와 15% 더 빠른 추론 속도를 보임.
Quotes
"우리의 단축 연결 MoE 아키텍처는 기존 접근법의 통신과 계산 간 의존성을 해결하여 이를 크게 개선할 수 있습니다."
"우리의 적응형 병렬 처리 전략은 통신 시간이 계산 시간을 초과하지 않는 경우 완전한 통신 중첩을 실현할 수 있습니다."