vec2wav 2.0은 음성 자기지도학습 모델의 이산 토큰을 활용하여 음원의 내용 정보를 추출하고, 참조 음원의 음색 정보를 효과적으로 결합하여 우수한 음성 변환 성능을 달성한다.
본 연구는 내용, 화자 정보, 감정 정보를 효과적으로 모델링하여 감정 표현 음성 변환을 수행하는 완전 엔드-투-엔드 프레임워크를 제안한다.
제안된 MAIN-VC 모델은 시아메즈 인코더와 제한된 상호 정보 추정기를 통해 효과적으로 음성 표현을 분리하여 원샷 음성 변환 성능을 향상시킵니다.
본 연구는 소프트 음성 유닛과 적대적 스타일 증강을 활용하여 표현력 있는 음성 변환을 실현하는 새로운 프레임워크를 제안한다. 이를 통해 화자 독립적인 내용 및 운율 특징을 효과적으로 추출할 수 있다.
HybridVC는 사전 학습된 CVAE 모델을 기반으로 하여 텍스트 및 오디오 프롬프트를 활용하여 효율적이고 유연한 음성 스타일 변환을 수행합니다.