本論文では、ターゲットスピーカー抽出(TSE)タスクのためのデータ拡張手法を提案している。従来のデータ拡張手法は主にスピーチミックスチャーに適用されてきたが、本研究では登録スピーチの拡張に着目する。
具体的には以下の3点が主な貢献である:
実験結果から、提案手法は事前学習済みスピーカーエンコーダーと共同最適化スピーカーエンコーダーの両方で一貫して性能を向上させることが分かった。特に、SSAは最も大きな改善をもたらした。また、登録スピーチの拡張はクリーンなデータセットでの性能向上に、スピーチミックスチャーの拡張はノイジーなデータセットでの性能向上に有効であることが示された。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Junjie Li, K... alle arxiv.org 09-17-2024
https://arxiv.org/pdf/2409.09589.pdfDomande più approfondite