本論文介紹了一種名為 ConSinger 的歌聲合成方法,該方法基於一致性模型,旨在以最少的步驟實現高效的高保真歌聲合成。
歌聲合成系統(SVS)旨在根據給定的樂譜(歌詞、時長和音調)生成逼真的人聲演唱音頻。近年來,擴散模型在該領域表現出色,但其高質量樣本生成是以犧牲推理速度為代價的,限制了其應用場景。
ConSinger 模型採用一致性模型,並結合了淺層擴散機制,以平衡生成速度和樣本質量。其訓練過程通過優化一致性損失來實現,並使用補充解碼器和評分器來進一步提高生成質量。
ConSinger 模型主要由以下幾個部分組成:
ConSinger 模型的訓練分為兩個階段:首先訓練編碼器和補充解碼器,然後訓練 CM-Denoiser。在推理過程中,模型從高斯噪聲分佈中採樣,並使用 CM-Denoiser 預測真實的梅爾頻譜圖,最後使用語音編碼器生成音頻。
實驗結果表明,ConSinger 在生成速度和質量方面與基準模型相比具有很強的競爭力。通過使用評分器,ConSinger (v3) 在生成速度略有下降的情況下,顯著提高了生成質量。
ConSinger 是一種基於一致性模型的歌聲合成方法,能夠以最少的步驟實現高效的高保真歌聲合成。實驗結果證明了該方法的有效性,並為歌聲合成領域提供了新的思路。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Yulin Song, ... klokken arxiv.org 10-22-2024
https://arxiv.org/pdf/2410.15342.pdfDypere Spørsmål