這篇研究論文介紹了一種名為 GOLF(GlOttal-flow LPC Filter)的新穎歌聲合成方法。GOLF 採用可微分數字信號處理技術,利用模擬人類聲音產生的物理特性來合成歌聲。
傳統的歌聲合成系統通常基於樣本拼接或參數化方法,但這些方法存在數據需求量大、可解釋性差等問題。近年來,深度神經網絡(DNN)在歌聲合成領域取得了顯著進展,但其輸入特徵(如梅爾頻譜圖)的可解釋性較差,且需要大量數據才能實現泛化。
GOLF 基於 DDSP(可微分數字信號處理)模型,並結合了人類聲音產生的聲源濾波模型。具體來說,GOLF 使用聲門模型作為諧波聲源,並使用無限脈衝響應(IIR)濾波器來模擬声道。為了提高訓練效率,研究人員開發了一種可微分的 IIR 實現方法。
實驗結果表明,GOLF 在合成質量方面與其他基於 DDSP 的歌聲合成器相當,但所需的合成參數和訓練所需的內存更少,且推理速度快了十倍。此外,GOLF 還可以模擬人類聲音的相位分量,這在以可微分方式渲染和分析歌聲方面具有巨大潛力。
GOLF 的研究結果表明,將人類聲音機制的物理特性融入歌聲合成是有效的,同時也突出了基於信號處理方法的優勢,這些方法在合成中提供了更高的可解釋性和效率。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies