本文提出了一項新的零射程口音生成任務,旨在解決現有零射程語音合成(ZS-TTS)系統在口音保真度和控制方面的不足。作者提出了一個兩階段的管道系統AccentBox,包括:
第一階段,作者開發了一個稱為GenAID的口音識別模型,通過信息瓶頸和對抗訓練實現了對說話者和口音的解耦,在13種口音的分類任務上取得了0.56的F1分數,顯著優於基線。
第二階段,作者將預訓練的GenAID模型嵌入作為條件輸入,融入到基於YourTTS的零射程語音合成系統中,形成AccentBox。AccentBox在固有口音生成和跨口音生成任務上均取得了更高的口音相似度,並能夠生成未見過的口音。主觀評估結果顯示,AccentBox在口音相似度和自然度方面均優於強基線系統。
總的來說,本文提出了一個新的零射程口音生成任務,並建立了一個創新的兩階段管道系統AccentBox,在口音識別和零射程口音生成方面取得了最先進的性能,為個性化語音助手、電影配音等應用提供了新的可能。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Jinzuomu Zho... kl. arxiv.org 09-17-2024
https://arxiv.org/pdf/2409.09098.pdfDybere Forespørgsler