核心概念
ConSinger 是一種基於一致性模型的歌聲合成方法,能夠以最少的步驟實現高效的高保真歌聲合成。
要約
論文概述
本論文介紹了一種名為 ConSinger 的歌聲合成方法,該方法基於一致性模型,旨在以最少的步驟實現高效的高保真歌聲合成。
研究背景
歌聲合成系統(SVS)旨在根據給定的樂譜(歌詞、時長和音調)生成逼真的人聲演唱音頻。近年來,擴散模型在該領域表現出色,但其高質量樣本生成是以犧牲推理速度為代價的,限制了其應用場景。
ConSinger 模型
ConSinger 模型採用一致性模型,並結合了淺層擴散機制,以平衡生成速度和樣本質量。其訓練過程通過優化一致性損失來實現,並使用補充解碼器和評分器來進一步提高生成質量。
模型架構
ConSinger 模型主要由以下幾個部分組成:
- 編碼器:將樂譜轉換為分數條件序列。
- 補充解碼器:提供先驗知識,生成粗略的梅爾頻譜圖。
- CM-Denoiser:從高斯噪聲中恢復真實的梅爾頻譜圖。
- 評分器:確定最佳的去噪級別。
- 時間步長處理:將時間步長轉換為連續的隱藏條件。
- 語音編碼器:將生成的梅爾頻譜圖轉換為音頻波形。
模型訓練與推理
ConSinger 模型的訓練分為兩個階段:首先訓練編碼器和補充解碼器,然後訓練 CM-Denoiser。在推理過程中,模型從高斯噪聲分佈中採樣,並使用 CM-Denoiser 預測真實的梅爾頻譜圖,最後使用語音編碼器生成音頻。
實驗結果
實驗結果表明,ConSinger 在生成速度和質量方面與基準模型相比具有很強的競爭力。通過使用評分器,ConSinger (v3) 在生成速度略有下降的情況下,顯著提高了生成質量。
結論
ConSinger 是一種基於一致性模型的歌聲合成方法,能夠以最少的步驟實現高效的高保真歌聲合成。實驗結果證明了該方法的有效性,並為歌聲合成領域提供了新的思路。
統計
ConSinger (v3) 在客觀和主觀質量指標上均取得了最佳性能。
ConSinger (v3) 的生成速度與 FFTSinger 相似,但生成質量大大提高。
通過使用評分器,ConSinger (v3) 在生成速度降低 10% 的情況下,生成質量提高了 1.16 MOS。
引用
"Achieving high speed inference while maintaining high quality sampling has become a challenging task."
"ConSinger can be trained by optimizing consistency loss and generates mel-spectrogram approximatively matching the ground truth distribution with minimal steps."
"Our experiments show that DiffSinger does not fully exploit the performance of the network by predicting and denoising a small amount of noise at a time, and therefore it consumes abundant inference time."