核心概念
本文提出了一種新的神經網路降噪聲碼器,可以僅從噪聲梅爾頻譜生成乾淨的語音波形,其效能優於現有的神經網路聲碼器,並與一些先進的語音增強方法相媲美。
文獻資訊
Du, H.-P., Lu, Y.-X., Ai, Y., & Ling, Z.-H. (2024). A Neural Denoising Vocoder for Clean Waveform Generation from Noisy Mel-Spectrogram based on Amplitude and Phase Predictions. arXiv preprint arXiv:2411.12268v1.
研究目標
本研究旨在開發一種能夠從噪聲梅爾頻譜生成乾淨語音波形的神經網路降噪聲碼器。
方法
研究人員提出了一種兩階段的降噪聲碼器架構。第一階段為頻譜預測器,由幅度頻譜預測器(ASP)和相位頻譜預測器(PSP)組成,用於從噪聲梅爾頻譜預測噪聲幅度頻譜和噪聲相位頻譜。第二階段為增強模組,採用最先進的時頻域語音增強模型 MP-SENet 對預測的噪聲幅度和相位頻譜進行降噪,生成乾淨的幅度和相位頻譜。最後,通過逆短時傅立葉變換(iSTFT)將乾淨的幅度和相位頻譜轉換為乾淨的語音波形。
主要發現
實驗結果表明,所提出的神經網路降噪聲碼器在 VoiceBank+DEMAND 數據集上與現有的神經網路聲碼器相比,取得了最先進的性能。此外,儘管輸入的梅爾頻譜缺少相位信息和部分幅度信息,但所提出的神經網路降噪聲碼器仍然取得了與幾種先進的語音增強方法相當的性能。
主要結論
本研究提出了一種新穎且有效的基於神經網路的降噪聲碼器,能夠從噪聲梅爾頻譜生成高質量的乾淨語音波形。這一方法為在噪聲環境下的語音合成和語音轉換任務提供了新的解決方案。
意義
本研究對於在實際噪聲環境中需要進行語音合成的應用(如文本轉語音和語音轉換)具有重要意義。
局限性和未來研究方向
未來研究方向包括構建端到端的降噪聲碼器,無需噪聲語音橋接,並進一步提高降噪性能,特別是在低信噪比的情況下。
統計資料
在 VoiceBank+DEMAND 數據集上,所提出的神經網路降噪聲碼器在所有指標上均顯著優於 HiFi-GAN 和 Vocos 兩種先進的神經網路聲碼器。
與僅使用幅度譜作為輸入的 MetricGAN 和 MetricGAN+ 相比,所提出的方法在 PESQ、CSIG 和 COVL 方面優於 MetricGAN,但在 CBAK 方面仍遜色於 MetricGAN+。