Główne pojęcia
Lancet은 MoE 모델 학습 시 발생하는 all-to-all 통신 지연을 해결하기 위해 전체 학습 그래프 수준에서 계산과 통신을 중첩하는 기법을 제안한다.
Streszczenie
Lancet은 MoE 모델 학습 가속화를 위해 다음과 같은 기법을 제안한다:
순전파 과정에서 MoE 계산 외에도 non-MoE 계산을 all-to-all 통신과 중첩할 수 있도록 연산을 분할한다. 이를 위해 배치 차원에서 연산을 분할하되 수학적 동등성을 유지하는 기법을 개발했다.
역전파 과정에서 가중치 기울기 계산을 all-to-all 통신과 중첩할 수 있도록 스케줄링한다.
연산 분할 범위를 결정하는 동적 프로그래밍 기반 알고리즘을 개발했다. 이를 통해 분할 오버헤드를 최소화하면서도 충분한 중첩을 달성할 수 있다.
Lancet은 이러한 기법들을 통해 기존 솔루션 대비 최대 77%의 non-overlapping 통신 시간 감소와 최대 1.3배의 end-to-end 학습 속도 향상을 달성했다.
Statystyki
MoE 모델 학습 시 all-to-all 통신이 최대 40%의 학습 시간을 차지할 수 있다.
Lancet은 non-overlapping 통신 시간을 최대 77% 감소시킬 수 있다.
Lancet은 기존 솔루션 대비 최대 1.3배의 end-to-end 학습 속도 향상을 달성했다.
Cytaty
"Lancet significantly reduces the time devoted to non-overlapping communication, by as much as 77%."
"Lancet achieves a notable end-to-end speedup of up to 1.3 times when compared to the state-of-the-art solutions."