本研究提出了一種名為MacST的新方法,通過利用大型語言模型(LLM)進行文本音譯,再將音譯後的文本輸入到多語言語音合成(TTS)模型中,從而生成具有不同口音的英語語音樣本。與傳統的語音轉換(VC)或TTS方法相比,MacST方法具有以下優點:
研究團隊對MacST生成的語音樣本進行了主觀和客觀評估,結果表明該方法可以有效地增強非母語英語使用者的口音,並且可以用於構建高質量的口音轉換系統。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Sho Inoue, S... alle arxiv.org 09-17-2024
https://arxiv.org/pdf/2409.09352.pdfDomande più approfondite