CoVoMix는 제로샷 기반의 다화자 다라운드 대화 음성 생성 모델로, 대화 텍스트를 개별 화자의 의미 정보를 나타내는 이산 토큰 스트림으로 변환하고, 이를 이용해 혼합 멜-스펙트로그램을 생성하며, 최종적으로 HiFi-GAN 보코더를 통해 자연스러운 대화 음성을 합성할 수 있습니다.
신경 오디오 코덱을 활용한 언어 모델링을 통해 효율적이고 고품질의 제로샷 음성 합성을 달성할 수 있다.
대화형 시스템의 응답에 감정과 비유창성을 자연스럽게 통합하여 인간적이고 공감적인 상호작용을 구현한다.