본 연구는 음성 변환 작업을 위한 새로운 프레임워크인 "SAVC"를 제안한다. SAVC는 HuBert-Soft에서 추출한 소프트 음성 유닛을 입력으로 사용하며, 속성 인코더를 통해 내용 및 운율 특징을 각각 추출한다.
특히, 적대적 스타일 증강을 통해 통계적 섭동을 가하여 화자 정보를 제거한다. 이를 통해 속성 인코더가 다양한 스타일 섭동에도 유사한 표현을 학습할 수 있도록 한다. 또한 지식 증류를 활용하여 운율 특징을 명시적으로 모델링한다.
실험 결과, 제안 모델은 기존 모델 대비 자연스러운 음질과 높은 화자 유사도를 보여준다. 특히 화자 독립적인 특징 추출과 운율 모델링 능력이 향상되어 표현력 있는 음성 변환 성능이 개선되었다.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Yimin Deng,J... klo arxiv.org 05-02-2024
https://arxiv.org/pdf/2405.00603.pdfSyvällisempiä Kysymyksiä