本文提出了一種新的神經網路音訊編碼器模型 NDVQ,它基於向量量化 (VQ) 的原理,但與傳統的 VQ 方法不同,NDVQ 將每個編碼簿項表示為一個正態分佈,而不是確定性的多維向量。這樣做可以增加每個編碼的間距,提高編碼簿的利用率,從而增強模型在噪聲環境和低比特率下的強健性和泛化能力。
具體來說,NDVQ 模型包括四個關鍵組件:編碼器、基於正態分佈的殘差向量量化器、解碼器和判別器。編碼器將輸入的音訊波形映射到潛在表示,然後由正態分佈向量量化器對其進行量化,得到量化的潛在表示。解碼器利用這些量化結果重建原始音訊,而判別器則用於提高重建音訊的質量。
NDVQ 在訓練過程中引入了與分佈相關的損失函數,包括重建損失、判別損失和編碼簿損失。其中編碼簿損失不僅優化了編碼簿的均值,還限制了方差的範圍,以防止過大的方差引入過多噪聲。
實驗結果表明,與現有的音訊編碼基線模型 EnCodec 相比,NDVQ 在低比特率情況下表現更優,在音質和零樣本語音合成任務上都有顯著提升。此外,NDVQ 還展現了更強的泛化能力,在不同語言和場景的數據上也能取得良好的效果。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések