本報告描述了TCG CREST團隊為第二屆DISPLACE挑戰賽開發的說話人分割(SD)和語言分割(LD)系統。
說話人分割(SD)是確定多說話人音頻錄音中"誰說話了"的任務。語言分割是回答多語言對話中"哪種語言在何時說話"的任務。DISPLACE 2024挑戰賽關注於在多語言環境下評估這些模型的性能,以識別代碼混合和代碼切換的情況。
該挑戰賽包括三個Track:多語言場景下的說話人分割(Track 1)、多說話人環境下的語言分割(Track 2)和多口音環境下的自動語音識別(Track 3)。我們的團隊參加了Track 1和Track 2。
在說話人分割任務中,我們探索了從語音增強到重新分割的不同組件。我們評估了統計語音增強算法和神經網絡語音活動檢測。對於嵌入提取,我們實驗了在監督和自監督方式下訓練的不同嵌入提取器。對於聚類,我們探索了凝聚層次聚類和光譜聚類。最後,我們採用了變分貝葉斯-隱馬爾可夫模型(VB-HMM)進行重新分割。
我們使用SpeechBrain工具包進行實驗,並修改了AMI語料庫的配方。對於重新分割,我們採用了第三屆DIHARD挑戰賽基線系統中提供的Kaldi腳本。
我們在Track 1中的最終提交使用了在VoxCeleb語料庫上預訓練的ECAPA-TDNN嵌入。在Track 2中,我們融合了兩種嵌入提取器(ECAPA-TDNN和XLS-R)的親和力矩陣。
我們的實驗結果顯示,在Track 1中,我們的系統相對於挑戰賽基線實現了約7%的改進。但在Track 2中,我們未能超越挑戰賽基線。未來我們計劃進一步優化預訓練模型和參數。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問