본 논문은 감정 표현 음성 변환을 위한 완전 엔드-투-엔드 프레임워크를 제안한다. 이를 위해 다음과 같은 핵심 내용을 다룬다:
내용 표현, 화자 표현, 감정 표현을 각각 별도의 인코더로 모델링하여 음성 변환에 활용한다. 내용 표현은 자기지도학습 음성 모델에서 추출한 음성 단위를 사용하고, 화자 표현과 감정 표현은 각각 화자 검증 모델과 감정 인식 모델에서 추출한 특징을 활용한다.
화자 표현에는 화자 고유의 감정 정보가 포함되어 있음을 분석하고, 이를 활용하여 감정 표현 음성 변환 성능을 향상시킨다.
조건부 확산 모델 기반의 디코더를 통해 엔드-투-엔드 음성 변환을 수행하며, 보코더 없이도 고품질의 변환 음성을 생성할 수 있다.
실험 결과, 제안 모델은 기존 방법 대비 객관적/주관적 평가에서 우수한 성능을 보였으며, 화자 및 감정 변환 모두에서 우수한 결과를 달성했다.
To Another Language
from source content
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Zongyang Du,... : arxiv.org 05-06-2024
https://arxiv.org/pdf/2405.01730.pdfDaha Derin Sorular