Belangrijkste concepten
다중 헤드 메커니즘을 활용하여 입력 토큰을 여러 개의 서브 토큰으로 분할하고, 이를 다양한 전문가에게 할당함으로써 전문가 활성화를 높이고 세부적인 이해력을 향상시킨다.
Samenvatting
이 논문은 Sparse Mixture-of-Experts (SMoE) 모델의 두 가지 주요 문제점을 해결하기 위해 Multi-Head Mixture-of-Experts (MH-MoE)를 제안한다.
-
낮은 전문가 활성화: SMoE에서는 최적화 및 추론 과정에서 소수의 전문가만 활성화되어 전체 모델의 표현력을 충분히 활용하지 못하는 문제가 있다.
-
세부적인 분석 능력 부족: 토큰화 패턴의 한계로 인해 개별 토큰 내에 존재하는 다양한 의미 개념을 포착하기 어렵다.
MH-MoE는 다음과 같은 방식으로 이 문제들을 해결한다:
- 다중 헤드 메커니즘을 사용하여 각 입력 토큰을 여러 개의 서브 토큰으로 분할하고, 이를 다양한 전문가에게 할당한다.
- 이를 통해 전문가 활성화를 크게 높이고(90.71% 활성화), 서로 다른 전문가 공간의 정보를 종합적으로 활용하여 세부적인 이해력을 향상시킬 수 있다.
- MH-MoE는 기존 SMoE 프레임워크와 쉽게 통합될 수 있어 성능 향상에 도움이 된다.
실험 결과, MH-MoE는 영어 중심 언어 모델링, 다국어 언어 모델링, 멀티모달 마스킹 모델링 등 다양한 태스크에서 기존 모델 대비 우수한 성능을 보였다.
Statistieken
전문가 활성화 비율이 SMoE에서는 8.33%인 반면, MH-MoE에서는 90.71%로 크게 향상되었다.
의미적으로 풍부한 이미지 패치의 서브 토큰들이 더 다양한 전문가에게 할당되어 세부적인 정보를 포착할 수 있게 되었다.
다국어 이해 태스크(XNLI)에서 MH-MoE는 X-MoE 대비 평균 0.6점, 32개 전문가 설정에서는 0.8점 향상된 성능을 보였다.
Citaten
"MH-MoE can alleviate lower expert activation problem and significantly enhance the usage of larger experts by enabling optimization of almost all of experts, e.g., achieving 90.71% activation in Figure 1 (a), allowing for more efficient scaling of model capacity."
"Multi-head mechanism adopted in MH-MoE assign sub-tokens to different experts, enabling to jointly attend to information from different representation spaces at different experts, and finally achieving better finer-grained understanding ability."