VoxHakka는 대만 타이완 하카어의 6개 주요 방언을 지원하는 고품질 다화자 음성 합성 시스템이다. 웹 스크래핑과 자동 음성 인식 기반 데이터 정제 기술을 활용하여 구축된 데이터셋을 바탕으로, 화자 인식 및 제로샷 기능을 갖춘 효율적인 음성 합성 모델을 개발하였다.
CoVoMix는 제로샷 기반의 다화자 다라운드 대화 음성 생성 모델로, 대화 텍스트를 개별 화자의 의미 정보를 나타내는 이산 토큰 스트림으로 변환하고, 이를 이용해 혼합 멜-스펙트로그램을 생성하며, 최종적으로 HiFi-GAN 보코더를 통해 자연스러운 대화 음성을 합성할 수 있습니다.
신경 오디오 코덱을 활용한 언어 모델링을 통해 효율적이고 고품질의 제로샷 음성 합성을 달성할 수 있다.
대화형 시스템의 응답에 감정과 비유창성을 자연스럽게 통합하여 인간적이고 공감적인 상호작용을 구현한다.