核心概念
本文提出以逆問題求解的方式進行音訊解碼,通過擴散後採樣實現。為輸入信號測量開發了顯式條件函數,並展示了在不同碼率和任務無關先驗模型下的可行性。結果表明,與傳統方法相比,使用更通用的音樂模型可以在廣泛的內容類型和碼率下獲得改善的解碼性能。
摘要
本文提出以逆問題求解的方式進行音訊解碼,通過擴散後採樣實現。首先描述了用於本文的感知音訊編碼器架構,包括MDCT變換、包絡量化和樣本量化等步驟。
接下來介紹了以逆問題求解的方式進行音訊解碼的方法。作者提出使用朗之萬採樣從後驗分佈p(x|y)中採樣來重建原始信號x,其中y是編碼過程中獲得的信息。為了計算後驗分佈的對數梯度,作者提出了一種稱為"噪聲平均模型"的簡單近似方法,可以顯式計算離散測量的概率。這種方法不需要構建先驗無關的解函數。
作者還分析了使用Tweedie平均值的影響,發現它可以提高客觀性能,但需要計算模型梯度,增加了計算開銷。
最後,作者通過客觀和主觀評估驗證了所提方法的有效性。結果表明,與傳統解碼方法相比,使用更通用的音樂模型可以在廣泛的內容類型和碼率下獲得改善的解碼性能。
統計資料
使用噪聲平均模型時,在8 kb/s、16 kb/s、24 kb/s和48 kb/s的碼率下,Speech、Piano和Critical測試集的ViSQOL得分分別為:
Speech: 4.27、4.40、4.44、4.50
Piano: 4.04、4.49、4.52、4.53
Critical: 3.92、4.26、4.36、4.48
使用Tweedie平均模型時,在相同碼率下的ViSQOL得分為:
Speech: 4.31、4.44、4.49、4.54
Piano: 4.06、4.49、4.52、4.53
Critical: 3.97、4.31、4.42、4.52