本論文介紹了一種名為 SiFiSinger 的新型歌聲合成系統,該系統採用源濾波模型,相較於傳統方法,能夠產生更自然、更準確的歌聲。
歌聲合成(SVS)旨在根據歌詞和樂譜生成逼真的歌聲。近年來,深度學習的突破極大地推動了歌聲合成技術的發展。然而,現有的歌聲合成系統在音調準確性和音頻質量方面仍存在不足。
SiFiSinger 基於變分自編碼器(VAE)框架,包含先驗編碼器、後驗編碼器和波形解碼器。與傳統方法不同的是,SiFiSinger 採用源濾波模型,將聲學特徵解耦成代表音調的源激勵信號和代表頻譜包絡的梅爾倒譜。
在 Opencpop 數據集上的實驗結果表明,SiFiSinger 在音調均方根誤差、梅爾頻譜均方根誤差、基頻相關係數和清濁音幀錯誤率等客觀指標上均優於 VISinger 2。同時,主觀評測結果也顯示,SiFiSinger 合成的歌聲在自然度、清晰度和整體質量方面均優於 VISinger 2。
SiFiSinger 是一種基於源濾波模型的新型歌聲合成系統,通過將聲學特徵解耦、引入源模塊和可微分的重建損失,有效提高了合成歌聲的音調準確性和音頻質量。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Jianwei Cui,... alle arxiv.org 10-17-2024
https://arxiv.org/pdf/2410.12536.pdfDomande più approfondite