Основные понятия
WHYVは、話者情報を活用して、言語に依存せずに効果的に目標話者の音声を抽出することができる。
Аннотация
本研究では、WHYV (Wanna Hear Your Voice)と呼ばれる新しい話者抽出モデルを提案している。WHYVは、時間周波数領域のモデルであるTF-GridNetをベースとしており、話者情報を活用するためのゲーティングメカニズムを導入している。
具体的には、以下の3つの主要コンポーネントから構成される:
- 音声エンコーダ: 参照音声と混合音声を特徴ベクトルにエンコードする。
- グローバルターゲットフィルタ(GTF)とグローバルターゲットバイアス(GTB): 話者特徴を表すフィルタとバイアスを生成する。
- WHYVブロック: TF-Gridnetブロックとゲーティングメカニズムを組み合わせ、GTFとGTBを活用して目標話者の音声を抽出する。
実験の結果、WHYVは英語の話者抽出タスクで高い性能を示し(SI-SDR 17.3544)、さらに、事前学習したモデルをそのまま使って、ベトナム語の話者抽出にも適用できることが示された(SI-SDR 12.92)。これは、WHYVが言語に依存せずに話者特徴を捉えられることを示している。
Статистика
英語の2人話者混合音声に対して、WHYVは17.3544のSI-SDRを達成した。
英語の2人話者混合音声にWham!ノイズを加えた場合、WHYVは13.2032のSI-SDRを達成した。
ベトナム語の話者抽出タスクでは、WHYVは12.92のSI-SDRを達成した。
Цитаты
"WHYVは、時間周波数領域のモデルであるTF-GridNetをベースとしており、話者情報を活用するためのゲーティングメカニズムを導入している。"
"実験の結果、WHYVは英語の話者抽出タスクで高い性能を示し(SI-SDR 17.3544)、さらに、事前学習したモデルをそのまま使って、ベトナム語の話者抽出にも適用できることが示された(SI-SDR 12.92)。"