本文介紹了一個法語文本到語音合成系統,用於參加2023年Blizzard挑戰賽。該系統採用了VITS模型作為主要框架,包括聲學模型和聲碼器兩個主要組件,並加入了隨機持續時間預測器。
在數據預處理方面,作者對提供的NEB和AD數據集進行了清理和處理,包括:
在模型訓練方面,作者同時訓練了Hub任務和Spoke任務的模型,分別使用了4張NVIDIA GeForce RTX 3090顯卡。Hub任務模型訓練了約50萬步,Spoke任務模型訓練了約200萬步。
最終,作者的系統在Hub任務中的質量MOS評分為3.6,相似度MOS評分為3.5;在Spoke任務中的質量MOS評分為3.4,相似度MOS評分為3.5,整體表現在平均水平。
Başka Bir Dile
kaynak içeriğinden
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Xin Qi, Xiao... : arxiv.org 09-26-2024
https://arxiv.org/pdf/2309.00223.pdfDaha Derin Sorular