이 논문은 RALL-E라는 강건한 텍스트 음성 합성 모델을 제안한다. RALL-E는 기존 언어 모델 기반 텍스트 음성 합성 모델의 문제점인 불안정한 운율과 높은 단어 오류율을 해결하기 위해 연쇄 추론 프롬팅 기법을 도입한다.
구체적으로 RALL-E는 다음과 같은 방식으로 동작한다:
이를 통해 RALL-E는 기존 모델 대비 단어 오류율을 크게 낮추고, 특히 어려운 문장에 대해서도 우수한 성능을 보인다. 또한 주관적 평가에서도 자연스러운 음질과 화자 유사도를 달성한다.
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Detai Xin,Xu... klokken arxiv.org 04-05-2024
https://arxiv.org/pdf/2404.03204.pdfDypere Spørsmål