المفاهيم الأساسية
신경 오디오 코덱을 활용한 언어 모델링을 통해 효율적이고 고품질의 제로샷 음성 합성을 달성할 수 있다.
الملخص
이 논문은 신경 오디오 코덱을 활용한 제로샷 음성 합성 기술을 소개한다.
- 신경 오디오 코덱은 오디오를 다중 토큰 시퀀스로 인코딩하지만, 이는 언어 모델링의 확장성 문제를 야기한다.
- 이를 해결하기 위해 CLaM-TTS를 제안한다. CLaM-TTS는 확률적 잔차 벡터 양자화를 사용하여 토큰 길이를 크게 줄이고, 언어 모델이 한 번에 다중 토큰을 생성할 수 있게 한다.
- 실험 결과, CLaM-TTS는 자연스러움, 명료성, 화자 유사도, 추론 속도 면에서 기존 최신 모델들과 비교해 우수하거나 동등한 성능을 보였다.
- 또한 언어 모델 사전 학습 정도와 텍스트 토크나이제이션 전략이 성능에 미치는 영향을 분석하였다.
الإحصائيات
100,000시간 이상의 다국어 음성-텍스트 데이터셋을 활용하여 모델을 학습하였다.
영어 모델(CLaM-en)은 55,000시간의 영어 데이터로, 다국어 모델(CLaM-multi)은 11개 언어 100,000시간 데이터로 학습하였다.
اقتباسات
"신경 오디오 코덱은 다중 토큰 시퀀스로 오디오를 인코딩하지만, 이는 언어 모델링의 확장성 문제를 야기한다."
"CLaM-TTS는 확률적 잔차 벡터 양자화를 사용하여 토큰 길이를 크게 줄이고, 언어 모델이 한 번에 다중 토큰을 생성할 수 있게 한다."