HybridVC는 사전 학습된 CVAE 모델을 기반으로 하는 조건부 잠재 모델입니다. 이 모델은 사전 학습된 화자 인코더를 통해 획득한 화자 임베딩 정보를 활용하여 잠재 공간 분포를 모델링합니다. 또한 대조 학습을 통해 텍스트 임베딩을 화자 임베딩과 정렬시킴으로써 텍스트 및 오디오 프롬프트를 모두 지원할 수 있습니다.
실험 결과, HybridVC는 제한된 계산 자원에서도 효율적으로 학습될 수 있으며, 기존 모델들과 유사한 수준의 성능을 달성할 수 있습니다. 또한 HybridVC는 텍스트 및 오디오 프롬프트에 대한 일관성 있는 음성 스타일 변환을 수행할 수 있습니다. 이는 사용자 정의 개인화 음성과 같은 다양한 응용 분야에서 HybridVC의 활용 가능성을 보여줍니다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問