核心概念
提出一種基於多層變分自編碼器的文字轉語音模型,利用對抗式訓練增強模型的口音轉換能力,以實現更具包容性的語音合成系統。
摘要
本文提出了一種基於多層變分自編碼器(MLVAE)的文字轉語音(TTS)模型,並利用對抗式訓練來增強模型的口音轉換能力。
模型架構:
- MLVAE編碼器用於從語音信號中提取包含說話者特徵和口音特徵的潛在表示。
- 利用對抗式學習,最小化說話者潛在表示中的口音信息,以增強模型的口音轉換能力。
- 模型包括一個語音編碼器、一個Mel頻譜解碼器和一個口音分類器。
實驗結果:
- 客觀評估指標顯示,提出的MLVAE-ADV模型在Mel頻譜重建方面優於基線模型。
- 主觀評估中,MLVAE-ADV在口音相似度測試中優於基線模型,但在說話者相似度測試中略有下降。
- 這可能是由於口音轉換與保留原有說話者身份之間存在權衡,需要進一步平衡。
未來工作:
- 使用更大規模的數據集,以更好地平衡口音轉換和說話者身份保留。
- 探索更好的方法來平衡這兩個目標,推進更具包容性的語音合成技術。
統計資料
語音合成中,MLVAE-ADV模型的Mel頻譜失真(MCD)為6.9422,單詞錯誤率(WER)為0.2124。
引述
"由於口音是個人語音特徵的重要組成部分,改變它可能會改變感知到的說話者身份。這種權衡可能是由於數據集規模有限(每個口音只有4名說話者)造成的。"