Core Concepts
사하라 이남 아프리카 지역의 21개 언어와 방언으로 구성된 약 60,000시간의 음성 데이터로 사전 학습된 다국어 음성 모델을 제안한다. 이 모델은 기존 다국어 음성 모델보다 적은 데이터와 파라미터로도 사하라 이남 아프리카 언어에 대한 우수한 성능을 보인다.
Abstract
이 논문은 아프리카 언어의 과소 표현 문제를 해결하기 위해 사하라 이남 아프리카 지역의 음성 데이터만을 사용하여 사전 학습된 다국어 음성 모델을 제안한다.
약 60,000시간의 음성 데이터를 수집하였으며, 21개 언어와 방언을 포함한다.
HuBERT 아키텍처를 사용하여 2단계의 자기 지도 학습을 수행하였다.
FLEURS-102 데이터셋의 사하라 이남 아프리카 부분(20개 언어)에 대한 음성 인식 실험에서, 기존 최고 성능 모델과 유사한 수준의 성능을 보였으나 7배 적은 데이터와 6배 적은 파라미터를 사용하였다.
언어 식별 실험에서는 기존 모델 대비 22% 이상 향상된 성능을 보였다.
이를 통해 아프리카 언어에 특화된 음성 표현 모델의 우수성을 입증하였다.
Stats
이 모델은 약 60,000시간의 음성 데이터로 사전 학습되었다.
이 데이터는 21개 언어와 방언을 포함한다.
기존 최고 성능 모델 대비 7배 적은 데이터와 6배 적은 파라미터를 사용하였다.
Quotes
"사하라 이남 아프리카 지역의 21개 언어와 방언으로 구성된 약 60,000시간의 음성 데이터로 사전 학습된 다국어 음성 모델을 제안한다."
"이 모델은 기존 다국어 음성 모델보다 적은 데이터와 파라미터로도 사하라 이남 아프리카 언어에 대한 우수한 성능을 보인다."