本文提出了一種名為Period Singer的新型端到端歌聲合成模型。主要特點如下:
整合了週期性和非週期性變分自編碼器,以解決確定性音高調制導致的"一對多"問題。
採用了平滑音高增強方法,確保潛在變量捕捉廣泛和狹窄的音高變化。
利用音符邊界信息進行單調對齊搜索,避免了歌聲和樂譜之間的無意義對應。
在韓語和中文數據集上的實驗表明,Period Singer優於現有的端到端歌聲合成模型,合成質量接近人聲錄音。
通過消融實驗驗證了所提方法的有效性,包括歸一化流和利用音符邊界信息進行單調對齊搜索。
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Taewoo Kim, ... às arxiv.org 09-12-2024
https://arxiv.org/pdf/2406.09894.pdfPerguntas Mais Profundas