核心概念
本研究提出了一個多說話人、音素級離散神經編碼器模型,專門用於建模與說話者特徵和語音內容無關的語音韻律信息。
摘要
本研究提出了一個多說話人、音素級離散神經編碼器模型,專門用於建模與說話者特徵和語音內容無關的語音韻律信息。
模型架構包括:
- 語音編碼器部分以語音內容和說話者特徵作為輸入,輸出離散的韻律表示。
- 解碼器部分以語音內容和上述韻律表示作為輸入,輸出重建的語音光譜。
通過大量實驗,研究驗證了該模型所學習的韻律表示確實與語音內容和說話者特徵無關,具有以下特點:
- 韻律表示的主成分與語音的基頻和能量高度相關,反映了韻律的核心屬性。
- 韻律表示可在不同說話者之間自由組合,生成自然的語音,說明韻律信息與說話者特徵已被很好地分離。
- 韻律表示可用於跨說話者的韻律轉移,保留了源語音的韻律特徵。
總的來說,該模型學習到的韻律表示具有很強的解耦性和可控性,為語音合成和轉換等任務帶來了新的可能性。
統計資料
韻律表示的兩個主成分分別與語音的基頻和能量高度相關。
使用韻律表示進行跨說話者韻律轉移時,生成語音的基頻和能量與源語音高度相關。
即使將韻律表示隨機打亂,生成的語音仍保持較高的可理解性,Word Error Rate和Character Error Rate分別為3.18%和1.01%。
引述
"本研究提出的多說話人、音素級離散神經編碼器模型,專門用於建模與說話者特徵和語音內容無關的語音韻律信息。"
"該模型學習到的韻律表示具有很強的解耦性和可控性,為語音合成和轉換等任務帶來了新的可能性。"