CoVoMix는 다음과 같은 특징을 가지고 있습니다:
대화 텍스트를 개별 화자의 의미 정보를 나타내는 이산 토큰 스트림으로 변환하는 다중 스트림 텍스트-의미 모델을 제안합니다. 이를 통해 화자 간 대화 맥락을 효과적으로 모델링할 수 있습니다.
조건부 플로우 매칭 기반의 음향 모델을 활용하여 다중 화자의 멜-스펙트로그램을 동시에 생성합니다. 이를 통해 화자 간 중첩 발화, 적절한 휴지 등 자연스러운 대화 흐름을 구현할 수 있습니다.
다양한 평가 지표를 통해 CoVoMix의 성능을 검증했습니다. 객관적 지표에서 기존 방식 대비 우수한 성능을 보였으며, 주관적 평가에서도 인간 수준의 자연스러운 대화 음성을 생성할 수 있음을 확인했습니다.
대화 턴테이킹 통계, 비언어적 행동 분석, 화자 일관성 등 다양한 대화 특성을 분석하여 CoVoMix의 우수한 대화 모델링 능력을 입증했습니다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania