본 연구에서는 음성 변환을 위한 새로운 학습 프레임워크인 SelfVC를 제안한다. SelfVC는 크게 두 가지 구성 요소로 이루어져 있다:
특징 추출기: 음성 신호로부터 내용(언어적 특징), 화자 임베딩, 운율 정보를 추출한다. 내용 특징은 자기 지도 학습 모델인 Conformer-SSL로부터 얻고, 화자 임베딩은 화자 검증 모델인 TitaNet으로부터 얻는다. 운율 정보는 음성 신호의 기본 주파수 정보를 이용하여 추출한다.
합성기: 추출된 특징을 이용하여 원본 음성을 재합성한다. 합성기는 피치와 지속 시간 예측 모듈을 포함하고 있어 운율을 제어할 수 있다.
SelfVC의 핵심 아이디어는 합성기 자체를 이용하여 음성 변환된 입력을 생성하고, 이를 통해 모델을 반복적으로 정제하는 것이다. 이를 통해 기존 연구에서 사용된 휴리스틱한 변환 기법보다 다양하고 도전적인 입력을 제공할 수 있다. 실험 결과, SelfVC는 기존 방법들에 비해 화자 유사도, 명료도, 자연스러움 측면에서 우수한 성능을 보였다. 또한 다국어 음성 변환 태스크에서도 좋은 일반화 성능을 보였다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문