本研究提出了一種名為MacST的新方法,通過利用大型語言模型(LLM)進行文本音譯,再將音譯後的文本輸入到多語言語音合成(TTS)模型中,從而生成具有不同口音的英語語音樣本。與傳統的語音轉換(VC)或TTS方法相比,MacST方法具有以下優點:
研究團隊對MacST生成的語音樣本進行了主觀和客觀評估,結果表明該方法可以有效地增強非母語英語使用者的口音,並且可以用於構建高質量的口音轉換系統。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Sho Inoue, S... klokken arxiv.org 09-17-2024
https://arxiv.org/pdf/2409.09352.pdfDypere Spørsmål