핵심 개념
本文提出了一種基於源濾波模型的新型歌聲合成系統SiFiSinger,該系統通過將聲學特徵解耦成代表音調的源激勵信號和代表頻譜包絡的梅爾倒譜,並結合可微分的重建損失,實現了比傳統方法更高的音調準確性和音頻質量。
초록
SiFiSinger: 基於源濾波模型的高保真端到端歌聲合成器
論文概述
本論文介紹了一種名為 SiFiSinger 的新型歌聲合成系統,該系統採用源濾波模型,相較於傳統方法,能夠產生更自然、更準確的歌聲。
研究背景
歌聲合成(SVS)旨在根據歌詞和樂譜生成逼真的歌聲。近年來,深度學習的突破極大地推動了歌聲合成技術的發展。然而,現有的歌聲合成系統在音調準確性和音頻質量方面仍存在不足。
SiFiSinger 系統架構
SiFiSinger 基於變分自編碼器(VAE)框架,包含先驗編碼器、後驗編碼器和波形解碼器。與傳統方法不同的是,SiFiSinger 採用源濾波模型,將聲學特徵解耦成代表音調的源激勵信號和代表頻譜包絡的梅爾倒譜。
- 源模塊: 根據基頻(F0)序列生成正弦激勵信號,並通過可訓練的前饋層將其與諧波泛音合併,以確保合成語音與預期音調緊密匹配。
- 先驗編碼器: 採用類似於 FastSpeech 的結構,包含音調預測器、梅爾倒譜解碼器和時長預測器,用於預測音頻的音調、頻譜包絡和音素時長等信息。
- 後驗編碼器: 根據輸入的梅爾倒譜和 F0 特徵,預測後驗分佈的均值和方差,並通過重採樣獲得後驗潛變量。
- 解碼器: 由 HiFi-GAN 生成器組成,利用潛變量和源模塊生成的激勵信號生成最終的波形。
系統優勢
- 更高的音調準確性: SiFiSinger 通過源模塊和可微分的 F0 重建損失,能夠更準確地控制和預測音調信息。
- 更好的音頻質量: 將聲學特徵解耦成源激勵信號和梅爾倒譜,並結合可微分的重建損失,有效提高了合成語音的自然度和清晰度。
- 模型參數更少: SiFiSinger 不需要像 VISinger 2 那樣使用 DDSP 合成器,因此模型參數更少,訓練效率更高。
實驗結果
在 Opencpop 數據集上的實驗結果表明,SiFiSinger 在音調均方根誤差、梅爾頻譜均方根誤差、基頻相關係數和清濁音幀錯誤率等客觀指標上均優於 VISinger 2。同時,主觀評測結果也顯示,SiFiSinger 合成的歌聲在自然度、清晰度和整體質量方面均優於 VISinger 2。
總結
SiFiSinger 是一種基於源濾波模型的新型歌聲合成系統,通過將聲學特徵解耦、引入源模塊和可微分的重建損失,有效提高了合成歌聲的音調準確性和音頻質量。
통계
SiFiSinger 在 Opencpop 數據集上的 F0 均方根誤差為 42.93。
SiFiSinger 在 Opencpop 數據集上的梅爾頻譜均方根誤差為 0.35。
SiFiSinger 在 Opencpop 數據集上的基頻相關係數為 0.761。
SiFiSinger 的模型大小為 22.5M。
SiFiSinger 的平均意見得分(MOS)為 3.77 ± 0.12。