이 논문은 언어 모델 기반 텍스트-음성 변환 시스템에서 감정 차원 제어 기법을 제안한다. 기존 감정 텍스트-음성 변환 시스템은 감정 음성 데이터의 한계로 인해 다양한 감정 스타일을 구현하는데 어려움이 있었다.
제안 방법은 감정 음성 데이터 없이도 즐거움, 각성, 지배력의 3가지 감정 차원을 예측하고 이를 활용하여 음성 합성을 수행한다. 먼저 감정 차원 예측기를 통해 감정 특징을 3차원 감정 벡터로 매핑한다. 이후 자기회귀 언어 모델과 비자기회귀 언어 모델을 활용하여 텍스트를 음성으로 변환하는데, 감정 차원 벡터를 활용하여 세부적인 음향 정보를 예측한다.
실험 결과, 제안 방법은 감정 음성 데이터 없이도 다양한 감정 스타일의 음성을 합성할 수 있으며, 자연스러운 음질과 프롬프트 음성과의 프로소디 일관성을 보여준다. 또한 감정 차원 제어를 통해 인간 감정의 광범위한 스펙트럼을 구현할 수 있음을 확인하였다.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor