核心概念
本文提出了一種基於連續語音標記的文字轉語音(TTS)模型,並通過實驗證明了其相較於基於離散語音標記模型的優勢,尤其是在資訊保留和對不同採樣率的穩健性方面。
書目資訊
Yixing Li, Ruobing Xie, Xingwu Sun, Yu Cheng, Zhanhui Kang. (2024). Continuous Speech Tokenizer in Text To Speech. arXiv preprint arXiv:2410.17081v1.
研究目標
本研究旨在探討基於連續語音標記的文字轉語音(TTS)模型的可行性及效能,並與傳統基於離散語音標記的模型進行比較。
研究方法
**連續語音標記器:**不同於傳統使用RVQ量化器將語音特徵轉換為離散標記,本研究採用連續語音標記器,直接將編碼器輸出的連續語音向量作為語言模型的輸入。
**基於連續語音標記的TTS模型:**將TTS任務視為自回歸標記生成任務,模型預測連續語音標記,並利用音頻解碼層和流匹配將其轉換為語音。
訓練目標: 包括語音標記器重建損失和語言建模損失,採用類似VAE的訓練方法,先預訓練標記器,再聯合訓練整個模型。
實驗: 使用LibriSpeech數據集進行訓練和評估,使用WER、SIM、EMoS、CLVP Score、STOI等指標評估模型效能,並分析不同頻率下的資訊保留率以及對採樣率和窗口長度的穩健性。
主要發現
相較於基於離散語音標記的TTS模型,基於連續語音標記的模型在多項指標上均取得更優的效能,包括WER、SIM、EMoS、CLVP Score、STOI等。
連續語音標記器在所有頻段,特別是高頻部分,都具有更高的資訊保留率。
連續語音標記器對採樣率和窗口長度的變化更加穩健。
主要結論
基於連續語音標記的TTS模型是一種有效的方法,能夠提高語音合成的品質。
連續語音標記器比離散標記器具有更好的資訊保留能力和穩健性。
研究意義
本研究為基於連續語音表示的TTS模型提供了一個完整的框架,並為後續研究奠定了基礎。
研究限制與未來方向
本研究主要關注TTS任務,尚未在多模態大型語言模型(MLLM)上進行驗證和評估。
未來研究將繼續探索連續語音標記在MLLM中的應用,以及如何解決其訓練難度等問題。
統計資料
在高頻範圍內,離散語音標記器的傳輸效果急劇下降,而連續語音標記器在該範圍內保持了良好的效果。
連續語音標記器在整個頻率範圍內都具有很強的資訊保留能力。