核心概念
사하라 이남 아프리카 지역의 21개 언어와 방언으로 구성된 약 60,000시간의 음성 데이터로 사전 학습된 다국어 음성 모델을 제안한다. 이 모델은 기존 다국어 음성 모델보다 적은 데이터와 파라미터로도 사하라 이남 아프리카 언어에 대한 우수한 성능을 보인다.
摘要
이 논문은 아프리카 언어의 과소 표현 문제를 해결하기 위해 사하라 이남 아프리카 지역의 음성 데이터만을 사용하여 사전 학습된 다국어 음성 모델을 제안한다.
- 약 60,000시간의 음성 데이터를 수집하였으며, 21개 언어와 방언을 포함한다.
- HuBERT 아키텍처를 사용하여 2단계의 자기 지도 학습을 수행하였다.
- FLEURS-102 데이터셋의 사하라 이남 아프리카 부분(20개 언어)에 대한 음성 인식 실험에서, 기존 최고 성능 모델과 유사한 수준의 성능을 보였으나 7배 적은 데이터와 6배 적은 파라미터를 사용하였다.
- 언어 식별 실험에서는 기존 모델 대비 22% 이상 향상된 성능을 보였다.
- 이를 통해 아프리카 언어에 특화된 음성 표현 모델의 우수성을 입증하였다.
統計資料
이 모델은 약 60,000시간의 음성 데이터로 사전 학습되었다.
이 데이터는 21개 언어와 방언을 포함한다.
기존 최고 성능 모델 대비 7배 적은 데이터와 6배 적은 파라미터를 사용하였다.
引述
"사하라 이남 아프리카 지역의 21개 언어와 방언으로 구성된 약 60,000시간의 음성 데이터로 사전 학습된 다국어 음성 모델을 제안한다."
"이 모델은 기존 다국어 음성 모델보다 적은 데이터와 파라미터로도 사하라 이남 아프리카 언어에 대한 우수한 성능을 보인다."