核心概念
本文介紹了一個基於VITS模型的法語文本到語音合成系統,在2023年Blizzard挑戰賽中取得了平均水平的成績。
摘要
本文介紹了一個法語文本到語音合成系統,用於參加2023年Blizzard挑戰賽。該系統採用了VITS模型作為主要框架,包括聲學模型和聲碼器兩個主要組件,並加入了隨機持續時間預測器。
在數據預處理方面,作者對提供的NEB和AD數據集進行了清理和處理,包括:
- 移除缺失文本的音頻片段,並修正一些文本轉錄錯誤。
- 過濾掉無發音或持續時間為零的符號,保留有發音的符號。
- 在句子開始和結束添加特殊標記,並在單詞邊界處插入斜線。
- 使用開源的G2P模型將文本轉換為國際音標,並根據比賽要求轉換為比賽使用的音素表示。
- 對AD數據集進行數據擴充,增加了多說話人的法語數據。
- 將所有音頻統一採樣率為16kHz。
在模型訓練方面,作者同時訓練了Hub任務和Spoke任務的模型,分別使用了4張NVIDIA GeForce RTX 3090顯卡。Hub任務模型訓練了約50萬步,Spoke任務模型訓練了約200萬步。
最終,作者的系統在Hub任務中的質量MOS評分為3.6,相似度MOS評分為3.5;在Spoke任務中的質量MOS評分為3.4,相似度MOS評分為3.5,整體表現在平均水平。
统计
我們對提供的法語數據進行了清理和處理,移除了缺失文本的音頻片段,並修正了一些文本轉錄錯誤。
我們過濾掉了無發音或持續時間為零的符號,保留了有發音的符號。
我們在句子開始和結束添加了特殊標記,並在單詞邊界處插入了斜線。
我們使用開源的G2P模型將文本轉換為國際音標,並根據比賽要求轉換為比賽使用的音素表示。
我們對AD數據集進行了數據擴充,增加了多說話人的法語數據。
我們將所有音頻統一採樣率為16kHz。