Alapfogalmak
本研究介紹了ManaTTS,這是目前最大規模的公開單說話者波斯語料庫,並提供了一個全面的框架來收集波斯語轉錄語音資料集。ManaTTS在開放的CC-0許可下發布,包含約86小時的音頻,採樣率為44.1 kHz。我們還生成了VirgoolInformal資料集來評估用於強制對齊的波斯語音識別模型,涵蓋5小時的音頻。這些資料集由完全透明、MIT許可的管道支持,體現了該領域的創新。它包括用於句子分詞、有界音頻分割和新穎強制對齊方法的獨特工具。這種對齊技術專門設計用於低資源語言,解決了該領域的關鍵需求。使用這個資料集,我們訓練了一個基於Tacotron2的TTS模型,獲得了3.76的平均意見得分(MOS),這非常接近使用相同聲碼器和自然頻譜的3.86 MOS,以及自然波形的4.01 MOS,證明了該語料庫的出色質量和有效性。
Kivonat
本研究介紹了ManaTTS,這是目前最大規模的公開單說話者波斯語TTS資料集。ManaTTS包含約86小時的音頻,採樣率為44.1 kHz,由一位女性說話者錄製,並在開放的CC-0許可下發布。
為了評估ASR模型,我們還生成了VirgoolInformal資料集,涵蓋5小時的轉錄語音。這兩個資料集都由一個完全透明、MIT許可的管道支持,包括用於句子分詞、有界音頻分割和新穎強制對齊方法的獨特工具。
我們使用這個ManaTTS資料集訓練了一個基於Tacotron2的TTS模型,獲得了3.76的平均意見得分(MOS),這非常接近使用相同聲碼器和自然頻譜的3.86 MOS,以及自然波形的4.01 MOS,證明了該語料庫的出色質量和有效性。
Statisztikák
"本資料集包含約86小時的音頻,採樣率為44.1 kHz。"
"資料集涵蓋了24,113個獨特單詞,涵蓋了各種主題領域。"
"約71.46%的音頻-文本片段具有高質量對齊,約28.54%具有中等質量對齊。"
Idézetek
"ManaTTS是目前最大規模的公開單說話者波斯語TTS資料集。"
"ManaTTS在開放的CC-0許可下發布,使教育和商業用途成為可能。"
"ManaTTS的處理管道是完全透明和可重複的,包括用於句子分詞、有界音頻分割和新穎強制對齊方法的獨特工具。"