本文提出了一種名為WHYV的目標說話者提取模型,能夠在不需要微調的情況下將模型從一種語言轉移到另一種語言。該模型採用了一種門控機制,能夠根據說話者的聲學特徵修改特定頻率,在英語和越語語音分離任務上都取得了出色的表現。
提出一種基於多層變分自編碼器的文字轉語音模型,利用對抗式訓練增強模型的口音轉換能力,以實現更具包容性的語音合成系統。
提出一種詞彙級語調模型,可用於自動數據標記和文本到語音系統的擴展應用。該模型可以通過使用基於規則的算法或語言模型來預測語調輪廓。
本文提出了一種準確的語音聲韻對齊模型,適用於語音分析和視頻內容創作。我們提出了一種基於變分自編碼器(VAE)的對齊模型,以無監督的方式搜索使用編碼的聲學和語言嵌入的可能路徑。我們的模型基於一個TTS對齊(OTA)模型,並擴展以獲得聲韻邊界。具體而言,我們採用VAE架構以保持嵌入和輸入的一致性,應用梯度退火以避免訓練過程中陷入局部最優,並引入基於自監督學習(SSL)的聲學特徵輸入和狀態級語言單元,以利用豐富和詳細的信息。實驗結果表明,與傳統的OTA模型、基於CTC的分割模型和廣泛使用的工具MFA相比,所提出的模型生成的聲韻邊界更接近註釋的邊界。
本報告描述了TCG CREST團隊為第二屆DISPLACE挑戰賽開發的說話人分割(SD)和語言分割(LD)系統。我們探索了不同的語音增強技術、語音活動檢測(VAD)技術、無監督領域分類和神經嵌入提取架構。我們還利用了各種嵌入提取模型的融合。我們的最終提交使用了光譜聚類方法進行說話人和語言分割。在Track 1中,我們相對於挑戰賽基線實現了約7%的改進。但在Track 2中,我們未能超越挑戰賽基線。
本文提出了一種可擴展的語音失流利建模方法 (SSDM),該方法採用了基於發音動作的可擴展強制對齊、連接主義子序列對齊器 (CSA) 以及利用大型語言模型的端到端學習框架。
提出一個端到端的預訓練雙過濾失語症喚醒詞檢測系統(PD-DWS),通過音頻建模和雙過濾策略提高性能。
我們提出了TSELM,一種利用離散化語言模型進行目標說話者提取的新方法。TSELM使用多層WavLM作為輸入標記,並結合交叉注意力機制和語言模型來提取目標說話者信息。它將複雜的音頻生成問題轉化為分類任務,並使用可擴展的HiFi-GAN進行音頻重建。實驗結果表明,TSELM在語音質量方面取得了出色的結果,在語音可懂度方面也取得了可比的結果。
本文提出了SALMON,一個用於評估聲學語言模型在各種聲學特徵上的能力的套件。SALMON包括兩個主要任務:聲學一致性和聲學-語義對齊,涵蓋了多個聲學方面,如說話者身份、情感、背景噪音和房間脈衝響應。通過建模方法,SALMON可以快速評估模型在這些任務上的表現。
透過語音轉換技術,可以在噪音抑制後有效地修復語音質量,並實現帶寬擴展、去混響和內插等增強效果。