本研究では、ターゲットスピーカー抽出(TSE)の性能を向上させるために、合成スピーカーを用いたカリキュラム学習(CL)を提案している。
まず、CLの従来手法では、ターゲットスピーカーと干渉スピーカーの類似度が低い「易しい」データから学習を始め、徐々に類似度の高い「難しい」データに移行していく。本研究では、この手法に加えて、k-nearest neighbor(k-NN)ベースの音声変換手法を用いて、多様な合成干渉スピーカーを生成し、それらを学習に取り入れる新しいステージを追加した。
実験の結果、合成干渉スピーカーを導入することで、複数のTSEモデルの性能が大幅に向上することが示された。特に、Conformerベースのモデルでは、従来手法に比べて1dB以上のiSDR向上が確認された。また、合成スピーカーと実スピーカーを適切に組み合わせることの重要性や、合成スピーカー生成の際のハイパーパラメータの影響などについても分析を行った。
本手法は、TSEの性能向上に大きく貢献するだけでなく、音声合成技術を活用してデータ拡張を行う新しい方向性を示すものである。今後は、ターゲットスピーカーとの類似性が高い合成干渉スピーカーの生成や、複数の干渉スピーカーを含む音声の生成などに取り組む予定である。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询