提出一種基於多層變分自編碼器的文字轉語音模型,利用對抗式訓練增強模型的口音轉換能力,以實現更具包容性的語音合成系統。
本文提出了一種基於深度學習的口音轉換系統,利用可控口音的 TTS 技術合成平行語料數據,並使用離散單元作為中間目標進行口音轉換,在保留說話者身份的同時,有效地將多種口音轉換為目標口音,並提升了非母語人士的語音流暢度。