核心概念
전문가 혼합 언어 모델의 밀도 학습과 희소 추론을 통해 계산 및 매개변수 효율성을 향상시킬 수 있다.
摘要
이 연구는 전문가 혼합(MoE) 언어 모델의 학습과 추론 방식을 개선하여 효율성을 높이는 방법을 제안한다.
- 기존 MoE 모델은 학습 시 전문가를 희소하게 활성화하여 계산 효율성을 높였지만, 매개변수 효율성이 낮았다.
- 제안하는 DS-MoE 모델은 학습 시 모든 전문가를 활성화하는 밀도 학습 방식을 사용하고, 추론 시에만 희소하게 전문가를 선택하는 방식을 취한다.
- 이를 통해 DS-MoE 모델은 기존 MoE 모델과 유사한 계산 효율성을 유지하면서도 매개변수 효율성이 향상되었다.
- 실험 결과, DS-MoE 모델은 동일한 성능의 밀도 모델 대비 30-40%의 매개변수만 활성화하면서도 유사한 성능을 달성할 수 있었다.
- 또한 DS-MoE 모델은 계산 및 I/O 제한 환경에서 기존 MoE 모델 대비 최대 1.86배 빠른 추론 속도를 보였다.
統計資料
제안하는 DS-MoE-3B 모델은 기존 SMoE-5B 모델과 유사한 성능을 보이면서도 매개변수 수가 절반 수준이다.
DS-MoE-6B 모델은 밀도 모델 대비 29%의 매개변수만 활성화하면서도 유사한 성능을 달성했다.
DS-MoE-6B 모델은 A100-80GB GPU에서 Mistral-7B 모델 대비 1.86배, Qwen1.5-MoE-A2.7B 모델 대비 1.50배 빠른 추론 속도를 보였다.
引述
"제안하는 DS-MoE 모델은 기존 MoE 모델과 유사한 계산 효율성을 유지하면서도 매개변수 효율성이 향상되었다."
"DS-MoE-6B 모델은 A100-80GB GPU에서 Mistral-7B 모델 대비 1.86배, Qwen1.5-MoE-A2.7B 모델 대비 1.50배 빠른 추론 속도를 보였다."