핵심 개념
登録スピーチの拡張は、事前学習済みスピーカーエンコーダーと共同最適化スピーカーエンコーダーの両方において、ターゲットスピーカー抽出の性能を一貫して向上させる。
초록
本論文では、ターゲットスピーカー抽出(TSE)タスクのためのデータ拡張手法を提案している。従来のデータ拡張手法は主にスピーチミックスチャーに適用されてきたが、本研究では登録スピーチの拡張に着目する。
具体的には以下の3点が主な貢献である:
- 雑音追加、残響追加、SpecAugmentなどの一般的な拡張手法を登録スピーチに適用し、その有効性を検証した。
- 新しい拡張手法として、推定スピーチを登録スピーチとして使用する「自己推定スピーチ拡張(SSA)」を提案した。
- 登録スピーチの拡張とスピーチミックスチャーの拡張を比較し、両者が相補的に機能することを示した。
実験結果から、提案手法は事前学習済みスピーカーエンコーダーと共同最適化スピーカーエンコーダーの両方で一貫して性能を向上させることが分かった。特に、SSAは最も大きな改善をもたらした。また、登録スピーチの拡張はクリーンなデータセットでの性能向上に、スピーチミックスチャーの拡張はノイジーなデータセットでの性能向上に有効であることが示された。
통계
登録スピーチにノイズを追加すると、ノイジーなデータセットでの性能が向上する。
登録スピーチに残響を追加すると、クリーンなデータセットでの性能が向上する。
登録スピーチにSpecAugmentを適用すると、正解率は向上するが、SDRは低下する。
인용구
"登録スピーチの拡張は、事前学習済みスピーカーエンコーダーと共同最適化スピーカーエンコーダーの両方において、ターゲットスピーカー抽出の性能を一貫して向上させる。"
"登録スピーチの拡張はクリーンなデータセットでの性能向上に、スピーチミックスチャーの拡張はノイジーなデータセットでの性能向上に有効である。"