Centrala begrepp
RALL-E는 연쇄 추론 프롬팅을 통해 언어 모델의 강건성을 향상시킨다. 이를 위해 먼저 음높이와 지속시간 등의 운율 특징을 예측하고, 이를 이용하여 음성 토큰을 생성한다. 또한 예측된 지속시간을 활용하여 음소와 운율 특징에 집중하도록 마스킹 기법을 적용한다.
Sammanfattning
이 논문은 RALL-E라는 강건한 텍스트 음성 합성 모델을 제안한다. RALL-E는 기존 언어 모델 기반 텍스트 음성 합성 모델의 문제점인 불안정한 운율과 높은 단어 오류율을 해결하기 위해 연쇄 추론 프롬팅 기법을 도입한다.
구체적으로 RALL-E는 다음과 같은 방식으로 동작한다:
- 입력 텍스트의 음높이와 지속시간 등의 운율 특징을 먼저 예측한다.
- 예측된 운율 특징을 이용하여 음성 토큰을 생성한다.
- 예측된 지속시간 정보를 활용하여 음소와 운율 특징에 집중하도록 마스킹 기법을 적용한다.
이를 통해 RALL-E는 기존 모델 대비 단어 오류율을 크게 낮추고, 특히 어려운 문장에 대해서도 우수한 성능을 보인다. 또한 주관적 평가에서도 자연스러운 음질과 화자 유사도를 달성한다.
Statistik
"RALL-E는 VALL-E 대비 단어 오류율을 50% 이상 개선했다."
"RALL-E는 특히 어려운 문장에 대해 오류율을 68%에서 4%로 크게 낮췄다."
Citat
"RALL-E는 연쇄 추론 프롬팅을 통해 언어 모델의 강건성을 향상시킨다."
"RALL-E는 예측된 지속시간 정보를 활용하여 음소와 운율 특징에 집중하도록 마스킹 기법을 적용한다."