Grunnleggende konsepter
本項目旨在開發一個機器學習模型,用於操縱文本到語音(TTS)合成語音的韻律參數,使其更接近人類語音。
Sammendrag
本項目旨在解決文本到語音(TTS)合成系統在韻律方面與人類語音之間存在的差距,包括音高、持續時間和能量等特徵。通過提取和比較人類語音和TTS語音的韻律特徵,並開發算法來操縱TTS語音的韻律參數,使其更接近自然語音的韻律特徵,從而提高合成語音的自然性和表現力。
主要步驟包括:
- 特徵提取:從人類語音和TTS語音中提取基本頻率(F0)、能量和頻譜包絡等關鍵韻律特徵。
- 特徵比較:比較人類語音和TTS語音的韻律特徵差異,識別需要改善的方面。
- 特徵操縱:開發算法調整TTS語音的音高、持續時間和能量,使其更接近人類語音。
- 模型訓練:訓練機器學習模型,學習最佳的韻律參數調整方式,最小化人類語音和操縱後TTS語音之間的差異。
- 應用:將訓練好的模型應用於處理和增強TTS生成的音頻,使其聽起來更自然和人性化。
通過這種方法,我們成功地提高了TTS生成語音的自然性和表現力,為TTS技術的進步做出了貢獻。
Statistikk
原始TTS語音的平均音高差異為30赫茲
操縱後TTS語音的平均音高差異降低至5赫茲
原始TTS語音的持續時間比例平均為0.85
操縱後TTS語音的持續時間比例提高至0.98
原始TTS語音的能量比例平均為0.8
操縱後TTS語音的能量比例提高至0.95
Sitater
"通過密切對齊音高、持續時間和能量與人類語音,我們的模型產生的TTS語音在感知上更加自然,更接近人性化的韻律特徵。"
"這些改進在意大利語和德語數據集中都保持一致,展示了我們方法的健壯性和普遍適用性。"