Główne pojęcia
다중 스케일 음향 프롬프트를 활용하여 화자의 음색과 개인적인 말투를 모두 효과적으로 모델링함으로써 제로샷 텍스트-음성 합성의 자연스러움과 화자 유사도를 향상시킬 수 있다.
Streszczenie
이 논문은 제로샷 텍스트-음성 합성 기술을 개선하기 위해 다중 스케일 음향 프롬프트를 활용하는 새로운 모델을 제안한다.
먼저, 화자 인식 텍스트 인코더를 통해 다수의 발화로 구성된 스타일 프롬프트에서 화자의 개인적인 말투 정보를 음소 수준에서 추출하고, 이를 텍스트 임베딩에 융합한다. 이어서, VALL-E 기반의 음향 디코더를 사용하여 3초 분량의 음색 프롬프트로부터 음색 정보를 모델링하고 음성을 생성한다.
실험 결과, 제안 모델은 기존 언어 모델 기반 제로샷 TTS 모델들에 비해 자연스러움과 화자 유사도 측면에서 우수한 성능을 보였다. 또한 스타일 프롬프트의 길이를 늘리면 성능이 지속적으로 향상되는 것을 확인할 수 있었다.
Statystyki
제안 모델은 기존 VALL-E 모델에 비해 자연스러움 MOS 점수가 0.4점 이상 높다.
제안 모델은 기존 VALL-E 모델에 비해 화자 유사도 MOS 점수가 0.3점 이상 높다.
제안 모델의 SECS 점수는 0.798로, VALL-E의 0.771보다 높다.
제안 모델의 MCD 점수는 7.715로, VALL-E의 8.075보다 낮다.
Cytaty
"다중 스케일 음향 프롬프트를 활용하여 화자의 음색과 개인적인 말투를 모두 효과적으로 모델링함으로써 제로샷 텍스트-음성 합성의 자연스러움과 화자 유사도를 향상시킬 수 있다."
"실험 결과, 제안 모델은 기존 언어 모델 기반 제로샷 TTS 모델들에 비해 자연스러움과 화자 유사도 측면에서 우수한 성능을 보였다."
"스타일 프롬프트의 길이를 늘리면 성능이 지속적으로 향상되는 것을 확인할 수 있었다."