創建低資源語言TTS資料集的秘訣:ManaTTS波斯語
本研究介紹了ManaTTS,這是目前最大規模的公開單說話者波斯語料庫,並提供了一個全面的框架來收集波斯語轉錄語音資料集。ManaTTS在開放的CC-0許可下發布,包含約86小時的音頻,採樣率為44.1 kHz。我們還生成了VirgoolInformal資料集來評估用於強制對齊的波斯語音識別模型,涵蓋5小時的音頻。這些資料集由完全透明、MIT許可的管道支持,體現了該領域的創新。它包括用於句子分詞、有界音頻分割和新穎強制對齊方法的獨特工具。這種對齊技術專門設計用於低資源語言,解決了該領域的關鍵需求。使用這個資料集,我們訓練了一個基於Tacotron2的TTS模型,獲得了3.76的平均意見得分(MOS),這非常接近使用相同聲碼器和自然頻譜的3.86 MOS,以及自然波形的4.01 MOS,證明了該語料庫的出色質量和有效性。