本研究介紹了ManaTTS,這是目前最大規模的公開單說話者波斯語TTS資料集。ManaTTS包含約86小時的音頻,採樣率為44.1 kHz,由一位女性說話者錄製,並在開放的CC-0許可下發布。
為了評估ASR模型,我們還生成了VirgoolInformal資料集,涵蓋5小時的轉錄語音。這兩個資料集都由一個完全透明、MIT許可的管道支持,包括用於句子分詞、有界音頻分割和新穎強制對齊方法的獨特工具。
我們使用這個ManaTTS資料集訓練了一個基於Tacotron2的TTS模型,獲得了3.76的平均意見得分(MOS),這非常接近使用相同聲碼器和自然頻譜的3.86 MOS,以及自然波形的4.01 MOS,證明了該語料庫的出色質量和有效性。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Mahta Fetrat... lúc arxiv.org 09-12-2024
https://arxiv.org/pdf/2409.07259.pdfYêu cầu sâu hơn