CoVoMix는 다음과 같은 특징을 가지고 있습니다:
대화 텍스트를 개별 화자의 의미 정보를 나타내는 이산 토큰 스트림으로 변환하는 다중 스트림 텍스트-의미 모델을 제안합니다. 이를 통해 화자 간 대화 맥락을 효과적으로 모델링할 수 있습니다.
조건부 플로우 매칭 기반의 음향 모델을 활용하여 다중 화자의 멜-스펙트로그램을 동시에 생성합니다. 이를 통해 화자 간 중첩 발화, 적절한 휴지 등 자연스러운 대화 흐름을 구현할 수 있습니다.
다양한 평가 지표를 통해 CoVoMix의 성능을 검증했습니다. 객관적 지표에서 기존 방식 대비 우수한 성능을 보였으며, 주관적 평가에서도 인간 수준의 자연스러운 대화 음성을 생성할 수 있음을 확인했습니다.
대화 턴테이킹 통계, 비언어적 행동 분석, 화자 일관성 등 다양한 대화 특성을 분석하여 CoVoMix의 우수한 대화 모델링 능력을 입증했습니다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Leying Zhang... lúc arxiv.org 04-11-2024
https://arxiv.org/pdf/2404.06690.pdfYêu cầu sâu hơn