核心概念
대규모 데이터셋에서 Mixture-of-Experts (MoE) 기반 모델이 Dense 모델과 유사한 정확도를 달성하면서도 더 효율적인 추론 속도를 제공할 수 있다.
摘要
이 연구는 Mixture-of-Experts (MoE) 기술을 활용하여 음성 인식 모델의 규모를 확장하는 방법을 제안합니다. 주요 내용은 다음과 같습니다:
-
복잡한 설계 없이 단순히 모든 Feed-Forward Network (FFN) 레이어를 MoE 레이어로 대체하는 것만으로도 음성 인식 작업에 효과적임을 입증했습니다.
-
160k 시간의 대규모 데이터셋에서 MoE-1B 모델이 Dense-1B 모델과 유사한 Word Error Rate (WER)을 달성하면서도 Dense-225M 모델 수준의 Real Time Factor (RTF)를 유지할 수 있음을 보여줍니다.
-
U2++ 프레임워크와 결합하여 단일 MoE 기반 모델에서 스트리밍 및 비스트리밍 디코딩 모드를 모두 지원하는 U2++ MoE 모델을 개발했습니다.
이 연구 결과는 배포 효율성을 희생하지 않고도 음성 기반 모델을 확장할 수 있는 방법을 제시합니다.
統計資料
MoE-1B 모델은 Dense-1B 모델과 유사한 WER(3.80%)을 달성하면서도 Dense-225M 모델 수준의 CPU RTF(0.1826)를 유지할 수 있습니다.
MoE-1B 모델의 매개변수 수는 Dense-225M 모델보다 4.7배 많지만, RTF 차이는 CPU에서 약 0.03, GPU에서 약 0.0004에 불과합니다.
引述
"우리의 제안 방식은 어떠한 보조 손실도 필요로 하지 않으며, 모델 아키텍처에 추가적인 임베딩 네트워크도 사용하지 않습니다. 이를 통해 모델 확장에 더욱 일반화된 접근법을 제공합니다."
"우리는 인코더와 디코더의 모든 FFN 레이어를 MoE 레이어로 대체하는 것이 효과적임을 최초로 입증했습니다. 이는 이전 연구와 차별화되는 점입니다."
"우리의 U2++ MoE 모델은 단일 모델에서 스트리밍 및 비스트리밍 디코딩 모드를 모두 지원할 수 있습니다. 이는 이전 연구에서 달성하지 못한 기능입니다."