대화형 언어 모델 Llama-VITS를 활용하여 텍스트 음성 합성의 의미적 이해와 감정 표현력을 향상시킬 수 있다.
RALL-E는 연쇄 추론 프롬팅을 통해 언어 모델의 강건성을 향상시킨다. 이를 위해 먼저 음높이와 지속시간 등의 운율 특징을 예측하고, 이를 이용하여 음성 토큰을 생성한다. 또한 예측된 지속시간을 활용하여 음소와 운율 특징에 집중하도록 마스킹 기법을 적용한다.