Core Concepts
희소 전문가 모델의 계산 효율성을 높이기 위해 작은 전문가와 임계값 기반 라우터를 활용하여 토큰이 필수적인 매개변수만 선택적으로 참여할 수 있도록 한다.
Abstract
이 논문은 희소 전문가 모델의 계산 효율성 문제를 해결하기 위해 XMoE라는 새로운 MoE 설계를 제안한다. XMoE는 작은 전문가와 임계값 기반 라우터를 활용하여 토큰이 필수적인 매개변수만 선택적으로 참여할 수 있도록 한다.
작은 전문가 활용: 전문가는 매개변수 선택의 가장 작은 단위이므로, 작은 전문가를 활용하면 불필요한 매개변수 활성화 없이 유용한 매개변수를 정확하게 선택할 수 있다.
임계값 기반 라우터: 기존의 top-k 라우터와 달리, 임계값 기반 라우터를 통해 토큰이 필요한 만큼의 전문가만 선택할 수 있다. 이를 통해 복잡도가 낮은 토큰은 단일 전문가만 활성화하고, 복잡한 토큰은 다중 전문가를 활성화할 수 있어 계산 자원을 효율적으로 활용할 수 있다.
실험 결과, XMoE는 언어 모델링과 기계 번역 작업에서 기존 방법보다 우수한 성능을 보이면서도 MoE 레이어의 계산량을 50% 이상 줄일 수 있었다. 또한 XMoE를 밀집 모델에 적용하여 추론 시 희소 계산을 가능하게 하는 방법도 제안하였다.
Stats
희소 모델의 FFN 레이어에서 대부분의 계산이 0 또는 낮은 활성화 값을 곱하는 데 낭비되고 있다.
전문가 수가 증가할수록 이 문제가 더 심각해진다.
Quotes
"MoE 모델은 모델 크기를 확장할 수 있지만, 이 논문은 MoE 모델이 계산 효율성 문제를 악화시킨다고 주장한다."
"XMoE는 작은 전문가와 임계값 기반 라우터를 활용하여 토큰이 필수적인 매개변수만 선택적으로 참여할 수 있도록 한다."