本文提出了一種基於純量量化(SQ)的神經語音編碼方法,以解決傳統基於向量量化(VQ)的神經語音編碼方法存在的一些問題,如需要額外的損失函數、調度參數和代碼本存儲等。
作者提出了兩種簡單高效的SQ實現方法:直通梯度(ST)和偽量化噪聲訓練。這些方法不需要任何額外的組件,可以直接作為神經網絡的一個模塊使用,大大簡化了神經語音編碼器的訓練過程。
作者還提出了一種新的因果網絡架構,該架構基於SQ和短時傅里葉變換(STFT)表示,特別適用於低複雜度和低比特率的實時語音通信應用。
實驗結果表明,所提出的方法在低複雜度和低比特率下的性能優於傳統的VQ方法。
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Andreas Bren... о arxiv.org 09-20-2024
https://arxiv.org/pdf/2405.08417.pdfГлибші Запити