Core Concepts
Lina는 MoE 모델의 분산 학습 및 추론 속도를 향상시키기 위해 통신 스케줄링과 전문가 패킹 기술을 제안한다.
Abstract
이 논문은 분산 MoE 모델 학습의 주요 병목 지점인 all-to-all 통신 문제를 해결하기 위한 Lina 시스템을 소개한다.
첫째, Lina는 tensor 분할과 마이크로 연산 스케줄링을 통해 all-to-all 통신을 우선순위화하여 allreduce와의 경쟁을 최소화한다. 이를 통해 all-to-all 완료 시간을 평균 2.21배 단축할 수 있었다.
둘째, Lina는 단일 디바이스에 여러 전문가를 패킹하여 all-to-all 전송 크기를 줄인다. 이를 위해 DRAM 오프로딩과 병렬 전문가 실행 기법을 활용하여 추가 오버헤드를 최소화한다. 전문가 패킹을 통해 전체 학습 단계 시간을 평균 1.19배 단축할 수 있었다.
종합적으로 Lina는 다양한 NLP 모델에 대해 최대 1.73배의 학습 단계 시간 가속화를 달성했다.
Stats
all-to-all 통신 시간은 전체 학습 단계 시간의 37.4%를 차지한다.
all-to-all과 allreduce의 동시 실행으로 인한 all-to-all 지연 시간은 최대 4.14배까지 증가할 수 있다.
전문가 수가 늘어날수록 all-to-all 시간이 전체 학습 단계 시간에서 차지하는 비율이 44.5%까지 증가한다.
Quotes
"Scaling model parameters usually improves model quality, but at the price of high computation overhead. Sparsely activated models, usually in the form of Mixture of Experts (MoE) architecture, have constant computation cost over their dense counterparts, thus providing opportunities to train and serve a large model at a reasonable cost."
"We focus on the efficiency of MoE training in this work. As some [22,29] has shown, the all-to-all operation is the main bottleneck in distributed MoE training."