本論文は、ターゲットスピーチ抽出(TSE)に関する新しい手法を提案している。従来のTSEモデルは静的な話者埋め込みを使用していたが、これでは抽出されたスピーチ信号の文脈情報を十分に捉えられないという問題があった。
提案手法では、過去のフレームから抽出されたスピーチ信号と話者登録データを組み合わせた動的な埋め込み表現を使用する。具体的には、話者の声質特徴を表す静的な埋め込みに、抽出されたスピーチ信号の文脈情報を動的に融合させる。
この動的埋め込みを用いることで、文脈に応じた適応的な表現が可能となり、ターゲットスピーチの抽出精度が向上する。実験結果から、提案手法は従来手法に比べてSDRとSTOIの指標で優れた性能を示すことが確認された。
さらに、動的埋め込みの効果を分析するための実験も行われた。サンプリングディレイや反復訓練エポック数の影響を評価し、動的埋め込みの有効性を検証している。
今後の課題としては、抽出信号と理想信号の差異をさらに縮小する方法の検討や、意味的特徴を活用した手法の検討などが挙げられる。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Yiwen Wang, ... kl. arxiv.org 09-11-2024
https://arxiv.org/pdf/2409.06136.pdfDybere Forespørgsler