HybridVC는 사전 학습된 CVAE 모델을 기반으로 하는 조건부 잠재 모델입니다. 이 모델은 사전 학습된 화자 인코더를 통해 획득한 화자 임베딩 정보를 활용하여 잠재 공간 분포를 모델링합니다. 또한 대조 학습을 통해 텍스트 임베딩을 화자 임베딩과 정렬시킴으로써 텍스트 및 오디오 프롬프트를 모두 지원할 수 있습니다.
실험 결과, HybridVC는 제한된 계산 자원에서도 효율적으로 학습될 수 있으며, 기존 모델들과 유사한 수준의 성능을 달성할 수 있습니다. 또한 HybridVC는 텍스트 및 오디오 프롬프트에 대한 일관성 있는 음성 스타일 변환을 수행할 수 있습니다. 이는 사용자 정의 개인화 음성과 같은 다양한 응용 분야에서 HybridVC의 활용 가능성을 보여줍니다.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Xinlei Niu,J... lúc arxiv.org 04-25-2024
https://arxiv.org/pdf/2404.15637.pdfYêu cầu sâu hơn