מושגי ליבה
本文提出了一種基於深度學習的口音轉換系統,利用可控口音的 TTS 技術合成平行語料數據,並使用離散單元作為中間目標進行口音轉換,在保留說話者身份的同時,有效地將多種口音轉換為目標口音,並提升了非母語人士的語音流暢度。
研究背景
不同英語語系人士之間的口音差異,形成語言隔閡。
深度學習模型有潛力解決這個問題,在保留說話者身份的同時,有效地轉換口音。
現有方法及局限性
傳統方法:依賴目標口音的參考語音進行合成,應用受限。
非自回歸口音轉換:
優點:僅需非平行數據,易於獲取。
缺點:流暢度不足,難以提升非母語人士的流暢度。
自回歸口音轉換:
優點:基於序列到序列模型,使用平行數據訓練。
缺點:平行數據稀缺,難以獲取。
本文提出的方法
開發一個自回歸、無參考、零樣本、多對一方向的口音轉換系統。
利用可控口音的 TTS 技術合成平行語料數據,解決數據稀缺問題。
使用離散單元作為中間目標進行口音轉換。
系統架構
語音轉單元(S2U)模型:將母語語音編碼為連續表示,並通過聚類生成離散單元序列。
多說話者單元轉語音(U2S)模型:將離散單元與說話者嵌入信息轉換回原始母語語音。
多口音 TTS 模型:基於 YourTTS 模型,利用權重分解技術實現多口音語音合成。
母語 TTS 模型:使用單一母語說話者的語音數據訓練 YourTTS 模型,生成目標口音的語音。
發音矯正器(PC)模型:基於 Transformer 的序列到序列模型,將非母語語音轉換為離散單元序列。
數據增強方法
使用多口音 TTS 模型和母語 TTS 模型生成平行訓練數據。
採用兩種句子選擇策略:
非重疊句子策略:從文本語料庫中選擇一百萬個句子,每個句子生成一個隨機口音和說話者的非母語語音。
重疊句子策略:從文本語料庫中選擇十六萬六千個句子,每個句子生成六個不同口音和說話者的非母語語音。
實驗結果
句子重疊策略在所有權重初始化條件下,文本困惑度均顯著優於非重疊句子策略。
Wav2vec 編碼器和 MBart 解碼器的組合在文本困惑度方面表現最佳。
在主觀評測中,本文提出的模型在口音和流暢度方面優於其他基線系統,但在說話者相似度方面略遜於 Baseline-3。
結論
可控口音的 TTS 技術可以為口音轉換生成大量平行訓練數據。
預訓練的編碼器解碼器和母語離散單元有助於訓練多對一方向的口音轉換系統。
本文提出的方法能夠將未見說話者的語音轉換為目標口音,並具有更好的流暢度和口音。
סטטיסטיקה
K = 100 個離散單元
訓練數據:LJSpeech 語料庫、LibriTTS-R 語料庫、L2-Arctic 語料庫
測試數據:約 1000 個句子(3 小時),包含中文、印度、阿拉伯和越南語說話者
評估指標:文本困惑度、口音測試、流暢度測試、說話者相似度平均意見得分(Sim-MOS)