核心概念
本文介紹了一種名為 GPST 的新型生成式預訓練語音語言模型,該模型結合了語義和聲學標記,並採用分層 Transformer 架構,能夠在單一階段中高效地生成高品質、語義連貫且可控的語音。
研究目標
本研究旨在解決現有語音語言模型在處理神經音頻編解碼器長聲學序列時面臨的挑戰,提出一個能夠高效生成高品質語音的單階段模型。
方法
語音量化:將音頻波形量化為語義標記和聲學標記兩種離散表示形式。
分層 Transformer 架構:採用一個大型全局 Transformer 和一個小型局部 Transformer。全局 Transformer 學習語義標記和堆疊聲學標記之間的高級關係,而局部 Transformer 則對堆疊聲學代碼中的分層細節進行建模。
局部丟棄技術:在訓練過程中隨機丟棄一些聲學標記,以提高高解析度語音生成的訓練效率。
多種推理模式:支持無條件生成、語義到聲學生成、說話者身份轉移和聲學延續生成等多種推理模式。
多語言學習:採用多語言 XLSR 編碼器作為語義標記提取器,並使用預先訓練的神經音頻編解碼器模型 EnCodec 作為聲學標記提取器,以支持多語言語音生成。
主要發現
GPST 在單一階段中就能夠生成高品質、語義連貫且可控的語音。
與現有語音語言模型相比,GPST 在詞錯誤率、說話者相似度和語音品質方面均取得了最佳結果。
GPST 能夠生成高解析度語音和多語言語音。
結論
GPST 是一個強大的語音語言模型,它在單一模型中展現出多項卓越的語音生成能力,為語音生成領域帶來了新的突破。
限制與未來研究方向
GPST 模型目前無法直接合成帶有文字輸入的語音,未來可以研究如何增強文字到語義標記生成模型。
GPST 模型可能存在被惡意利用的風險,例如冒充公眾人物或進行詐騙,未來可以研究如何為生成的語音添加水印以降低此類風險。
統計資料
GPST 在 LibriSpeech 測試集上的詞錯誤率 (WER) 為 2.8%,優於所有基準模型。
GPST 在說話者身份轉移任務中達到了 0.605 的說話者相似度 (SPK) 分數,證明其在保持語音內容的同時,能夠更好地轉移說話者的身份。
GPST-Hi-Res 的 DNSMOS 得分高於 GPST,表明更多量化器可以保留更多聲學細節,從而提高語音品質。
GPST 在僅使用 33% 的 AudioLM 參數的情況下,在語義到聲學模式中實現了最低的 WER 分數。