本研究提出了一個多說話人、音素級離散神經編碼器模型,專門用於建模與說話者特徵和語音內容無關的語音韻律信息。
模型架構包括:
通過大量實驗,研究驗證了該模型所學習的韻律表示確實與語音內容和說話者特徵無關,具有以下特點:
總的來說,該模型學習到的韻律表示具有很強的解耦性和可控性,為語音合成和轉換等任務帶來了新的可能性。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Sotirios Kar... at arxiv.org 09-16-2024
https://arxiv.org/pdf/2409.08664.pdfDeeper Inquiries