本文提出了一種名為WHYV的目標說話者提取(TSE)模型,旨在解決將TSE模型從一種語言轉移到另一種語言而無需微調的挑戰。
WHYV模型的主要組件包括:
實驗結果表明,WHYV在LibriMix基準上的英語語音分離任務中取得了出色的表現,在SI-SDR指標上達到17.3544。此外,在無需任何微調的情況下,WHYV還能夠在越語語音分離任務中取得12.92的SI-SDR,優於其他模型。這表明WHYV具有出色的跨語言域自適應能力。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by The Hieu Pha... a las arxiv.org 10-02-2024
https://arxiv.org/pdf/2410.00527.pdfConsultas más profundas