이 논문에서는 MAIN-VC라는 모델을 제안합니다. MAIN-VC는 음성 표현 분리를 통해 원샷 음성 변환을 수행합니다.
먼저, MAIN-VC는 시아메즈 인코더 기반의 화자 정보 학습 모듈(SILM)을 사용하여 깨끗한 화자 표현을 학습합니다. SILM은 시간 순서를 섞어 시간 변화 정보를 제거하여 화자 정보를 추출합니다.
또한 MAIN-VC는 제한된 상호 정보 추정기(CMI)를 도입하여 내용 표현과 화자 표현 간의 상호 정보를 최소화함으로써 표현 분리 능력을 향상시킵니다. CMI는 상호 정보의 상한과 하한을 동시에 추정하여 추정의 안정성과 정확성을 높입니다.
이와 함께 MAIN-VC는 경량화된 네트워크 구조를 가지고 있습니다. 제안된 APC 모듈과 파라미터 공유 전략을 통해 파라미터 수와 추론 시간을 크게 줄였습니다.
실험 결과, MAIN-VC는 기존 방법들과 비교하여 원샷 음성 변환 시나리오에서 우수한 성능을 보였으며, 동시에 경량화된 구조를 유지하고 있습니다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Pengcheng Li... kl. arxiv.org 05-03-2024
https://arxiv.org/pdf/2405.00930.pdfDybere Forespørgsler