本研究では、WHYV (Wanna Hear Your Voice)と呼ばれる新しい話者抽出モデルを提案している。WHYVは、時間周波数領域のモデルであるTF-GridNetをベースとしており、話者情報を活用するためのゲーティングメカニズムを導入している。
具体的には、以下の3つの主要コンポーネントから構成される:
実験の結果、WHYVは英語の話者抽出タスクで高い性能を示し(SI-SDR 17.3544)、さらに、事前学習したモデルをそのまま使って、ベトナム語の話者抽出にも適用できることが示された(SI-SDR 12.92)。これは、WHYVが言語に依存せずに話者特徴を捉えられることを示している。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by The Hieu Pha... klokken arxiv.org 10-02-2024
https://arxiv.org/pdf/2410.00527.pdfDypere Spørsmål