이 연구는 Mixture-of-Experts (MoE) 기술을 활용하여 음성 인식 모델의 규모를 확장하는 방법을 제안합니다. 주요 내용은 다음과 같습니다:
복잡한 설계 없이 단순히 모든 Feed-Forward Network (FFN) 레이어를 MoE 레이어로 대체하는 것만으로도 음성 인식 작업에 효과적임을 입증했습니다.
160k 시간의 대규모 데이터셋에서 MoE-1B 모델이 Dense-1B 모델과 유사한 Word Error Rate (WER)을 달성하면서도 Dense-225M 모델 수준의 Real Time Factor (RTF)를 유지할 수 있음을 보여줍니다.
U2++ 프레임워크와 결합하여 단일 MoE 기반 모델에서 스트리밍 및 비스트리밍 디코딩 모드를 모두 지원하는 U2++ MoE 모델을 개발했습니다.
이 연구 결과는 배포 효율성을 희생하지 않고도 음성 기반 모델을 확장할 수 있는 방법을 제시합니다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Xingchen Son... at arxiv.org 04-26-2024
https://arxiv.org/pdf/2404.16407.pdfDeeper Inquiries