이 논문은 제로샷 음성 변환(VC) 기술인 Takin-VC를 소개합니다. Takin-VC는 다음과 같은 핵심 구성 요소로 이루어집니다:
하이브리드 콘텐츠 인코더: 사전 학습된 HybridFormer와 WavLM 모델의 특징을 결합하여 언어 콘텐츠를 정확하게 추출합니다. 신경 코덱 기반 학습을 통해 특징 추출 성능을 향상시킵니다.
컨텍스트 인식 음색 모델링: 사전 학습된 화자 검증 모델에서 추출한 화자 음색 특징과 소스 콘텐츠 정보를 결합하는 크로스 어텐션 메커니즘을 사용하여 타겟 화자의 음색을 효과적으로 모델링합니다.
메모리 증강 모듈: 타겟 음색 정보를 효과적으로 활용하기 위해 메모리 증강 모듈을 도입하여 조건부 플로우 매칭 모델의 성능을 향상시킵니다.
실험 결과, Takin-VC는 기존 최신 제로샷 VC 시스템들을 능가하는 음성 자연성과 화자 유사도 성능을 보여줍니다. 이는 제안된 접근 방식이 효과적으로 언어 콘텐츠와 화자 음색을 모델링할 수 있음을 입증합니다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문