본 연구에서는 음성 변환을 위한 새로운 학습 프레임워크인 SelfVC를 제안한다. SelfVC는 크게 두 가지 구성 요소로 이루어져 있다:
특징 추출기: 음성 신호로부터 내용(언어적 특징), 화자 임베딩, 운율 정보를 추출한다. 내용 특징은 자기 지도 학습 모델인 Conformer-SSL로부터 얻고, 화자 임베딩은 화자 검증 모델인 TitaNet으로부터 얻는다. 운율 정보는 음성 신호의 기본 주파수 정보를 이용하여 추출한다.
합성기: 추출된 특징을 이용하여 원본 음성을 재합성한다. 합성기는 피치와 지속 시간 예측 모듈을 포함하고 있어 운율을 제어할 수 있다.
SelfVC의 핵심 아이디어는 합성기 자체를 이용하여 음성 변환된 입력을 생성하고, 이를 통해 모델을 반복적으로 정제하는 것이다. 이를 통해 기존 연구에서 사용된 휴리스틱한 변환 기법보다 다양하고 도전적인 입력을 제공할 수 있다. 실험 결과, SelfVC는 기존 방법들에 비해 화자 유사도, 명료도, 자연스러움 측면에서 우수한 성능을 보였다. 또한 다국어 음성 변환 태스크에서도 좋은 일반화 성능을 보였다.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Paarth Neekh... às arxiv.org 05-06-2024
https://arxiv.org/pdf/2310.09653.pdfPerguntas Mais Profundas