本文介紹了VoxHakka,這是一個專為臺灣客家語設計的文字轉語音(TTS)系統。VoxHakka利用YourTTS框架實現了高自然度、高準確度和低實時因子的語音合成,同時支持六種不同的客家方言。這是通過使用方言特定的數據對模型進行訓練來實現的,從而能夠生成具有方言意識的客家語音。為了解決公開可用的客家語音語料庫稀缺的問題,我們採用了一種成本效益高的方法,利用網絡爬取管道和基於自動語音識別(ASR)的數據清理技術來獲取高質量的多說話者、多方言數據集,用於TTS模型的訓練。主觀聽測試使用比較平均意見得分(CMOS)表明,VoxHakka在發音準確性、聲調正確性和整體自然度方面顯著優於現有的公開可用的客家TTS系統。這項工作代表了客家語言技術的重大進步,為語言保護和振興工作提供了寶貴的資源。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문