本論文では、目標話者抽出(TSE)タスクに特化したオープンソースツールキット「WeSep」を紹介する。WeSepは以下の特徴を持つ:
現在の主流TSEモデルを実装しており、今後より強力なモデルを組み込む予定である。これは、現時点で最初のTSE専用ツールキットである。
強力な事前学習モデルや定義済みのネットワーク構造との統合を可能にする。これにより、WeSpeakerツールキットとの連携が実現し、強力な話者モデルを柔軟に利用できる。
WeNetやWeSpeakerと同様の Unified IO (UIO) メカニズムを採用し、大規模データセットの効率的な処理を実現する。
オンラインデータシミュレーションパイプラインを実装し、事前に混合されたデータを必要とせずに、大規模データを活用してモデルの性能を向上させることができる。
導入環境への容易な適用を目的として、TorchのJIT形式やONNX形式でのモデルエクスポートを提供し、事前学習モデルとサンプルデプロイメントコードも提供する。
WeSepは、Libri2Mixデータセットを用いた実験結果を示し、話者モデルアーキテクチャ、融合手法、joint trainingの影響を分析する。また、VoxCeleb1データセットを用いた汎化性能の評価も行う。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor