핵심 개념
本文提出了一種名為WHYV的目標說話者提取模型,能夠在不需要微調的情況下將模型從一種語言轉移到另一種語言。該模型採用了一種門控機制,能夠根據說話者的聲學特徵修改特定頻率,在英語和越語語音分離任務上都取得了出色的表現。
초록
本文提出了一種名為WHYV的目標說話者提取(TSE)模型,旨在解決將TSE模型從一種語言轉移到另一種語言而無需微調的挑戰。
WHYV模型的主要組件包括:
- 語音編碼器:將參考音頻和混合音頻編碼成目標說話者嵌入和環境嵌入。
- 全局目標濾波器(GTF)和全局目標偏差(GTB):將嵌入轉換為GTF和GTB,用於提取目標說話者的特徵。
- WHYV模塊:由TF-Gridnet模塊和一個門控機制組成,能夠根據GTF和GTB調整頻率特徵。
實驗結果表明,WHYV在LibriMix基準上的英語語音分離任務中取得了出色的表現,在SI-SDR指標上達到17.3544。此外,在無需任何微調的情況下,WHYV還能夠在越語語音分離任務中取得12.92的SI-SDR,優於其他模型。這表明WHYV具有出色的跨語言域自適應能力。
통계
在LibriMix基準上,WHYV在乾淨英語語音分離任務中達到17.3544 SI-SDR,在加入Wham!噪音的情況下達到13.2032 SI-SDR。
在無需微調的情況下,WHYV在越語語音分離任務中達到12.92 SI-SDR,優於其他模型。
인용구
"WHYV能夠在不需要微調的情況下將模型從一種語言轉移到另一種語言,這表明其具有出色的跨語言域自適應能力。"
"WHYV採用了一種門控機制,能夠根據說話者的聲學特徵修改特定頻率,在英語和越語語音分離任務上都取得了出色的表現。"