核心概念
vec2wav 2.0 是一種新型的語音離散標記聲音合成器,可以有效地進行聲音轉換。它利用來自語音自監督模型的離散標記作為源語音的內容特徵,並將聲音轉換視為一個引導式聲音合成任務。為了彌補內容標記中缺失的說話人音色信息,vec2wav 2.0 利用WavLM特徵提供強大的音色相關信息。此外,我們提出了一種新的自適應Snake激活函數,可以更好地將音色信息融入到波形重建過程中。通過這種方式,vec2wav 2.0 可以根據不同的參考提示適當地改變說話人音色。此外,vec2wav 2.0 無需任何監督數據即可有效地進行訓練。實驗結果表明,vec2wav 2.0 在任何到任何的聲音轉換中在音質和說話人相似度方面都優於所有其他基線方法。消融研究也驗證了所提出技術的效果。此外,即使只在單語言語料庫上進行訓練,vec2wav 2.0 也實現了具有競爭力的跨語言聲音轉換。因此,vec2wav 2.0 表明,僅通過語音標記聲音合成器就可以潛在地操縱音色,推動了聲音轉換和語音合成的前沿。
摘要
vec2wav 2.0是一種新型的語音離散標記聲音合成器,可以有效地進行聲音轉換。它的主要特點如下:
統一性: vec2wav 2.0將語音離散標記重合成和聲音轉換統一到同一個引導式聲音合成器框架中。
簡單性: vec2wav 2.0不需要任何標記數據進行訓練,只需要單說話人的語音片段。訓練標準也足夠簡單,不需要額外的解耦損失。
競爭力: vec2wav 2.0在任何到任何的聲音轉換任務中的表現甚至優於連續聲音轉換方法。此外,即使只在英語語料庫上進行訓練,vec2wav 2.0也表現出了出色的跨語言聲音轉換能力。
新範式: vec2wav 2.0證明了即使語音標記不是完全解耦了說話人身份,也可以通過聲音合成器單獨操縱說話人音色,這可能簡化當前基於大型語言模型的零shot文本到語音合成範式。
在架構設計方面,vec2wav 2.0繼承了CTX-vec2wav的前端-生成器框架,並做出了關鍵改進。首先,它利用來自預訓練WavLM模型的特徵作為音色參考提示,通過位置無關的交叉注意機制將音色信息有效地融入到前端模塊中。其次,我們提出了一種新的自適應Snake激活函數,其中正弦函數的頻率和幅度都由目標說話人的音色特徵控制。這使得生成信號中固有的週期性特性對提供的音色特徵高度敏感,從而大大增強了音色的可控性。
實驗結果表明,vec2wav 2.0在任何到任何的聲音轉換任務中在音質、說話人相似度和韻律保留方面都優於所有基線方法,甚至優於一些最先進的連續聲音轉換模型。此外,即使只在英語語料庫上進行訓練,vec2wav 2.0也表現出了出色的跨語言聲音轉換能力。消融研究進一步驗證了自適應Snake激活函數和引導式特徵的重要作用。總的來說,vec2wav 2.0展示了僅通過聲音合成器就可以潛在地操縱說話人音色的可能性,為基於大型語言模型的零shot語音合成範式帶來了新的啟示。
統計資料
源語音的平均音高與轉換後的語音非常接近,表明vec2wav 2.0能夠很好地保留全局音高範圍。
源語音和轉換後的語音在局部音高變化模式上也非常相似,表明vec2wav 2.0能夠很好地保留韻律特徵。