Alapfogalmak
本文提出了一種名為Period Singer的新型端到端歌聲合成模型,利用變分推論來建模週期性和非週期性成分,以產生自然的音波形。
Kivonat
本文提出了一種名為Period Singer的新型端到端歌聲合成模型。主要特點如下:
-
整合了週期性和非週期性變分自編碼器,以解決確定性音高調制導致的"一對多"問題。
-
採用了平滑音高增強方法,確保潛在變量捕捉廣泛和狹窄的音高變化。
-
利用音符邊界信息進行單調對齊搜索,避免了歌聲和樂譜之間的無意義對應。
-
在韓語和中文數據集上的實驗表明,Period Singer優於現有的端到端歌聲合成模型,合成質量接近人聲錄音。
-
通過消融實驗驗證了所提方法的有效性,包括歸一化流和利用音符邊界信息進行單調對齊搜索。
Statisztikák
我們提出的Period Singer模型在韓語數據集上的平均意見得分(MOS)達到4.61,接近人聲錄音的4.65。
在中文數據集上,Period Singer的MOS得分為3.97,優於所有基線系統。
消融實驗表明,去除歸一化流模塊會使性能下降0.21分,而不使用音符邊界信息進行單調對齊搜索會使性能下降1.13分。
Idézetek
"通過整合週期性和非週期性變分自編碼器,Period Singer解決了確定性音高調制導致的'一對多'問題。"
"我們採用了平滑音高增強方法,確保潛在變量捕捉廣泛和狹窄的音高變化。"
"利用音符邊界信息進行單調對齊搜索,避免了歌聲和樂譜之間的無意義對應。"