이 논문은 최근 발전한 음성 복제 모델의 표현력 있는 화자 표현 공간을 활용하여 소수의 감정 샘플로도 임의의 감정을 음성에 적용할 수 있는 EmoKnob 프레임워크를 제안합니다.
EmoKnob은 사전 학습된 음성 복제 모델의 화자 임베딩 공간에서 감정 방향 벡터를 추출합니다. 이 벡터를 이용하여 새로운 화자의 음성에 원하는 감정을 부여할 수 있습니다. 또한 감정 강도 조절 기능을 제공하여 미세한 감정 제어가 가능합니다.
이 프레임워크의 소수 샘플 기반 감정 제어 기능을 활용하여, 저자들은 텍스트 기반 감정 설명으로 음성에 감정을 적용하는 두 가지 방법을 제안합니다. 하나는 합성 데이터 기반 방법이고, 다른 하나는 검색 기반 방법입니다. 이를 통해 기존 감정 음성 데이터셋의 부족 문제를 해결합니다.
감정 제어 프레임워크의 효과를 체계적으로 평가하기 위해, 저자들은 감정 표현의 충실도와 인식 가능성을 측정하는 새로운 평가 지표를 제안합니다. 객관적 및 주관적 평가를 통해 EmoKnob이 음성에 감정을 효과적으로 내장하고 상용 TTS 서비스를 능가한다는 것을 보여줍니다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究