Core Concepts
HybridVC는 사전 학습된 CVAE 모델을 기반으로 하여 텍스트 및 오디오 프롬프트를 활용하여 효율적이고 유연한 음성 스타일 변환을 수행합니다.
Abstract
HybridVC는 사전 학습된 CVAE 모델을 기반으로 하는 조건부 잠재 모델입니다. 이 모델은 사전 학습된 화자 인코더를 통해 획득한 화자 임베딩 정보를 활용하여 잠재 공간 분포를 모델링합니다. 또한 대조 학습을 통해 텍스트 임베딩을 화자 임베딩과 정렬시킴으로써 텍스트 및 오디오 프롬프트를 모두 지원할 수 있습니다.
실험 결과, HybridVC는 제한된 계산 자원에서도 효율적으로 학습될 수 있으며, 기존 모델들과 유사한 수준의 성능을 달성할 수 있습니다. 또한 HybridVC는 텍스트 및 오디오 프롬프트에 대한 일관성 있는 음성 스타일 변환을 수행할 수 있습니다. 이는 사용자 정의 개인화 음성과 같은 다양한 응용 분야에서 HybridVC의 활용 가능성을 보여줍니다.
Stats
음성 변환 시 원본 음성과의 피치 유사도(F0-PCC)는 0.71로 나타났습니다.
음성 변환의 자연스러움을 나타내는 FAD 지표는 0.76으로 측정되었습니다.
변환된 음성과 타깃 음성의 유사도를 나타내는 SSIM 지표는 0.78로 나타났습니다.
변환된 음성과 텍스트 프롬프트의 일관성을 나타내는 COS 지표는 0.69로 측정되었습니다.
Quotes
"HybridVC는 제한된 계산 자원에서도 효율적으로 학습될 수 있으며, 기존 모델들과 유사한 수준의 성능을 달성할 수 있습니다."
"HybridVC는 텍스트 및 오디오 프롬프트에 대한 일관성 있는 음성 스타일 변환을 수행할 수 있습니다."