核心概念
MDCTCodec 是一種基於修正離散餘弦轉換 (MDCT) 的新型輕量級神經音訊編解碼器,專為高取樣率和低位元率場景設計,展現出優異的音訊品質、快速的訓練和生成效率,以及精簡的模型規模。
論文資訊
Xiao-Hang Jiang, Yang Ai∗, Rui-Chen Zheng, Hui-Peng Du, Ye-Xin Lu, Zhen-Hua Ling. MDCTCodec: A Lightweight MDCT-based Neural Audio Codec towards High Sampling Rate and Low Bitrate Scenarios.
研究目標
本研究旨在開發一種適用於高取樣率和低位元率場景的高品質音訊編解碼器。
方法
本研究提出了一種基於修正離散餘弦轉換 (MDCT) 的新型輕量級神經音訊編解碼器 MDCTCodec。該模型採用改良的 ConvNeXt v2 網路作為編碼器和解碼器的骨幹,並使用殘差向量量化器 (RVQ) 進行量化。此外,研究還提出了一種多解析度 MDCT 鑑別器 (MR-MDCTD) 用于對抗訓練,以提升解碼音訊品質。
主要發現
MDCTCodec 在高取樣率和低位元率場景下展現出優異的音訊品質,尤其是在 48 kHz 取樣率和 6 kbps 位元率下,於公開的 VCTK 語料庫上達到了 4.18 的 ViSQOL 分數。
與其他基線神經音訊編解碼器相比,MDCTCodec 具有更快的訓練和生成效率,在 GPU 和 CPU 上分別達到了 123 倍和 16.9 倍的實時生成速度。
MDCTCodec 是一種輕量級模型,其模型規模遠小於其他基線模型,這使其更易於部署在行動設備或晶片上。
主要結論
MDCTCodec 是一種高效且輕量級的神經音訊編解碼器,適用於高取樣率和低位元率場景,並在音訊品質、效率和模型規模方面取得了顯著的成果。
研究意義
本研究提出了一種基於 MDCT 的新型神經音訊編解碼器,為高品質音訊壓縮提供了一種新的解決方案,並在模型效率和規模方面做出了貢獻。
局限性和未來研究方向
未來研究方向包括進一步降低延遲,並將 MDCTCodec 應用於語音大型模型等下游任務。
統計資料
在 48 kHz 取樣率和 6 kbps 位元率下,MDCTCodec 在公開的 VCTK 語料庫上達到了 4.18 的 ViSQOL 分數。
MDCTCodec 在 GPU 和 CPU 上分別達到了 123 倍和 16.9 倍的實時生成速度。