CoVoMix는 제로샷 기반의 다화자 다라운드 대화 음성 생성 모델로, 대화 텍스트를 개별 화자의 의미 정보를 나타내는 이산 토큰 스트림으로 변환하고, 이를 이용해 혼합 멜-스펙트로그램을 생성하며, 최종적으로 HiFi-GAN 보코더를 통해 자연스러운 대화 음성을 합성할 수 있습니다.