本研究提出了一種整合噪音抑制(NS)和語音轉換(VC)的語音修復框架。首先使用基於ResU-Net的NS模型去除噪音,然後採用基於擴散模型的VC技術來修復被損壞的語音。VC模型利用目標說話者的語音特徵和從去噪語音中提取的內容信息來生成高質量的修復語音。實驗結果表明,這種兩階段的NS+VC框架在客觀指標上優於單一階段的增強模型,雖然在語音可懂度方面略有下降。為了進一步提高可懂度,我們提出了一種內容編碼器自適應方法,在噪音條件下實現更穩健的內容提取。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania