이 논문은 음소 수준의 이산 신경 코덱 모델을 제안한다. 이 모델은 언어적 내용과 화자 특성으로부터 독립적으로 프로소디 정보를 모델링하도록 특별히 훈련된다.
모델의 인코더와 디코더는 언어적 표현과 화자 임베딩에 각각 조건화된다. 이를 통해 잠재 공간에서 언어와 화자 정보가 제거되고 프로소디 속성만 포착되도록 한다.
다양한 실험을 통해 이 잠재 공간이 실제로 언어와 화자 정보로부터 디엔탱글되어 있음을 검증했다. 주성분 분석 결과, 잠재 공간의 주요 축이 피치와 에너지를 나타내는 것으로 해석되었다. 또한 화자 간 프로소디 전이, 프로소디 코드 전이 등의 실험을 통해 이 잠재 공간의 강력한 프로소디 모델링 및 제어 능력을 확인했다.
제안된 모델은 크기와 복잡도가 매우 작지만 고품질의 음성 합성 성능을 보였다. 이는 이 잠재 공간이 프로소디 정보를 효과적으로 포착하고 있음을 시사한다. 향후 이 잠재 공간을 활용하여 음소로부터 직접 코드를 예측하는 프라이어 모델을 훈련하는 것이 흥미로운 연구 방향이 될 것으로 보인다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문