核心概念
提出一種新的向量量化方法 Normal Distribution Vector Quantization (NDVQ),通過在編碼器輸出的潛在空間中引入可學習的方差來增強模型的強健性和泛化能力,特別是在極低比特率情況下。
摘要
本文提出了一種新的神經網路音訊編碼器模型 NDVQ,它基於向量量化 (VQ) 的原理,但與傳統的 VQ 方法不同,NDVQ 將每個編碼簿項表示為一個正態分佈,而不是確定性的多維向量。這樣做可以增加每個編碼的間距,提高編碼簿的利用率,從而增強模型在噪聲環境和低比特率下的強健性和泛化能力。
具體來說,NDVQ 模型包括四個關鍵組件:編碼器、基於正態分佈的殘差向量量化器、解碼器和判別器。編碼器將輸入的音訊波形映射到潛在表示,然後由正態分佈向量量化器對其進行量化,得到量化的潛在表示。解碼器利用這些量化結果重建原始音訊,而判別器則用於提高重建音訊的質量。
NDVQ 在訓練過程中引入了與分佈相關的損失函數,包括重建損失、判別損失和編碼簿損失。其中編碼簿損失不僅優化了編碼簿的均值,還限制了方差的範圍,以防止過大的方差引入過多噪聲。
實驗結果表明,與現有的音訊編碼基線模型 EnCodec 相比,NDVQ 在低比特率情況下表現更優,在音質和零樣本語音合成任務上都有顯著提升。此外,NDVQ 還展現了更強的泛化能力,在不同語言和場景的數據上也能取得良好的效果。
統計資料
在 1.5kbps 的比特率下,NDVQ 的 PESQ 得分為 2.540,優於 EnCodec 的 1.667。
在 6.0kbps 的比特率下,NDVQ 的 SI-SDR 得分為 9.664,優於 EnCodec 的 5.585。
在 24.0kbps 的比特率下,NDVQ 的 VISQOL 得分為 4.477,優於 EnCodec 的 4.540。
引述
"NDVQ 通過在潛在空間中引入可學習的方差,增加了每個編碼的間距,提高了編碼簿的利用率,從而增強了模型在噪聲環境和低比特率下的強健性和泛化能力。"
"實驗結果表明,與現有的音訊編碼基線模型 EnCodec 相比,NDVQ 在低比特率情況下表現更優,在音質和零樣本語音合成任務上都有顯著提升。"