本文提出了一個基於條件變分自動編碼器(CVAE)的新穎且高效的文字轉語音(TTS)合成框架,能夠合成特定說話者的聲音,並將其轉換為任何所需的目標口音。
該框架由Tacotron2和後編碼器(Posterior Encoder)組成。後編碼器採用CVAE架構,目標是最大化數據的證據下界(ELBO)。作者提出了兩種CVAE變體:CVAE-L和CVAE-NL,分別在編碼器和解碼器中使用標籤。
作者進行了詳細的實驗和評估,包括客觀指標(如梅爾倒頻譜失真和詞錯誤率)和主觀評估(如自然度、口音相似度和說話者相似度)。結果表明,所提出的框架在口音轉換方面優於現有的基線模型,並保持了良好的語音質量。
作者還討論了在保持說話者身份的同時實現口音轉換的挑戰,並提出了未來的改進方向。總的來說,該框架為未來的帶有口音的TTS研究提供了一個有前景的方向。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы