核心概念
本研究提出了一種利用文本音譯生成多種口音語音樣本的新方法,可以有效地為口音轉換系統構建平行語料庫。
要約
本研究提出了一種名為MacST的新方法,通過利用大型語言模型(LLM)進行文本音譯,再將音譯後的文本輸入到多語言語音合成(TTS)模型中,從而生成具有不同口音的英語語音樣本。與傳統的語音轉換(VC)或TTS方法相比,MacST方法具有以下優點:
- 通過文本音譯實現了不同口音之間的語音差異,避免了說話人與口音之間的混淆問題。
- 可以生成任意英語句子的口音語音,不受現有語料庫內容的限制。
研究團隊對MacST生成的語音樣本進行了主觀和客觀評估,結果表明該方法可以有效地增強非母語英語使用者的口音,並且可以用於構建高質量的口音轉換系統。
統計
利用MacST生成的美式英語和印地語口音語音樣本,其印地語口音強度從9.56提高到51.61。
利用MacST生成的美式英語和韓語口音語音樣本,其韓語口音強度從6.90提高到77.63。
在口音轉換實驗中,利用MacST生成的數據進行數據增強,可以顯著提高轉換模型的性能。
引用
"MacST直接通過文本音譯改變了不同口音之間的語音差異,避免了依賴於語音樣本而導致的說話人與口音之間的混淆問題。"
"與傳統的語音轉換(VC)增強方法相比,MacST可以生成任意英語句子的口音語音,不受現有語料庫內容的限制。"