本研究では、WHYV (Wanna Hear Your Voice)と呼ばれる新しい話者抽出モデルを提案している。WHYVは、時間周波数領域のモデルであるTF-GridNetをベースとしており、話者情報を活用するためのゲーティングメカニズムを導入している。
具体的には、以下の3つの主要コンポーネントから構成される:
実験の結果、WHYVは英語の話者抽出タスクで高い性能を示し(SI-SDR 17.3544)、さらに、事前学習したモデルをそのまま使って、ベトナム語の話者抽出にも適用できることが示された(SI-SDR 12.92)。これは、WHYVが言語に依存せずに話者特徴を捉えられることを示している。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by The Hieu Pha... في arxiv.org 10-02-2024
https://arxiv.org/pdf/2410.00527.pdfاستفسارات أعمق