vec2wav 2.0是一種新型的語音離散標記聲音合成器,可以有效地進行聲音轉換。它的主要特點如下:
統一性: vec2wav 2.0將語音離散標記重合成和聲音轉換統一到同一個引導式聲音合成器框架中。
簡單性: vec2wav 2.0不需要任何標記數據進行訓練,只需要單說話人的語音片段。訓練標準也足夠簡單,不需要額外的解耦損失。
競爭力: vec2wav 2.0在任何到任何的聲音轉換任務中的表現甚至優於連續聲音轉換方法。此外,即使只在英語語料庫上進行訓練,vec2wav 2.0也表現出了出色的跨語言聲音轉換能力。
新範式: vec2wav 2.0證明了即使語音標記不是完全解耦了說話人身份,也可以通過聲音合成器單獨操縱說話人音色,這可能簡化當前基於大型語言模型的零shot文本到語音合成範式。
在架構設計方面,vec2wav 2.0繼承了CTX-vec2wav的前端-生成器框架,並做出了關鍵改進。首先,它利用來自預訓練WavLM模型的特徵作為音色參考提示,通過位置無關的交叉注意機制將音色信息有效地融入到前端模塊中。其次,我們提出了一種新的自適應Snake激活函數,其中正弦函數的頻率和幅度都由目標說話人的音色特徵控制。這使得生成信號中固有的週期性特性對提供的音色特徵高度敏感,從而大大增強了音色的可控性。
實驗結果表明,vec2wav 2.0在任何到任何的聲音轉換任務中在音質、說話人相似度和韻律保留方面都優於所有基線方法,甚至優於一些最先進的連續聲音轉換模型。此外,即使只在英語語料庫上進行訓練,vec2wav 2.0也表現出了出色的跨語言聲音轉換能力。消融研究進一步驗證了自適應Snake激活函數和引導式特徵的重要作用。總的來說,vec2wav 2.0展示了僅通過聲音合成器就可以潛在地操縱說話人音色的可能性,為基於大型語言模型的零shot語音合成範式帶來了新的啟示。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Yiwei Guo, Z... om arxiv.org 09-12-2024
https://arxiv.org/pdf/2409.01995.pdfDiepere vragen