Core Concepts
고품질 음성 변환을 위한 Prosody-aware VITS 제안
Abstract
PAVITS는 고품질 음성 변환을 위한 Prosody-aware VITS를 제안함
EVC의 주요 도전 과제는 콘텐츠 자연성과 감정 풍부성 부족
기존 EVC 모델의 한계를 극복하기 위해 PAVITS는 새로운 아키텍처와 기술을 도입
실험 결과, PAVITS의 성능이 최신 EVC 방법보다 우수함
1. 소개
EVC는 말한 발화의 감정 상태를 변환하고 언어적 콘텐츠와 화자 신원을 보존하는 것을 목표로 함
EVC는 감정 커뮤니케이션을 촉진하고 인간-컴퓨터 상호작용에서 사용자 경험을 향상시키는 능력을 제공
2. 제안된 방법
PAVITS는 CVAE를 기반으로 구성되어 TPP, APM, 정보 정렬 및 감정 음성 합성 모듈로 구성됨
TPP 모듈은 텍스트 및 감정 레이블을 사용하여 사전 분포를 예측
APM 모듈은 소스 오디오에서 감정 특징을 제공하고 세부한 프로소디 변화를 분리
3. 실험 및 토의
MCD 및 MOS를 사용하여 객관적 및 주관적 평가를 수행
PAVITS는 MCD 및 MOS에서 경쟁력 있는 성능을 보임
PAVITS-VL 모델은 인간 지각과 더 밀접하게 일치하는 것으로 나타남
Stats
실험 결과를 통해 PAVITS-FL 모델의 MCD 값이 3.42로 감소
PAVITS-VL 모델은 MOS에서 4.72의 높은 점수를 기록
Quotes
"PAVITS는 고품질 음성 변환을 위한 Prosody-aware VITS를 제안함"
"PAVITS는 ESD 코퍼스에서 콘텐츠 자연성과 감정 자연성에서 우수성을 입증함"