사하라 이남 아프리카 지역의 21개 언어와 방언으로 구성된 약 60,000시간의 음성 데이터로 사전 학습된 다국어 음성 모델을 제안한다. 이 모델은 기존 다국어 음성 모델보다 적은 데이터와 파라미터로도 사하라 이남 아프리카 언어에 대한 우수한 성능을 보인다.