本文介紹了WeSep,這是一個專注於目標說話者提取(TSE)任務的開源工具包。WeSep具有以下主要特點:
據作者所知,WeSep是第一個專注於TSE任務的工具包,實現了當前主流模型,並計劃在未來整合更強大的模型。
WeSep與開源說話者建模工具WeSpeaker無縫集成,允許靈活地集成強大的預訓練模型和預定義的網絡架構進行聯合訓練。
遵循WeNet和WeSpeaker的設計,WeSep提供了一種靈活高效的數據管理機制Unified IO (UIO),可輕鬆處理大規模數據集,確保可擴展性和數據處理效率。
WeSep實現了即時數據模擬管線,允許用戶利用為語音識別或說話者識別準備的單聲道音頻,無需預先混合,從而使模型訓練能夠擴展並獲得更好的性能。
WeSep中的模型可以輕鬆導出為Torch Just In Time (JIT)或ONNX格式,可以輕鬆地採用在部署環境中。還提供了預訓練模型和C++中的示例部署代碼。
此外,本文還詳細介紹了WeSep在Libri2Mix和VoxCeleb數據集上的實驗結果,並分析了融合策略、說話者模型架構和預訓練/聯合訓練範式對性能的影響。
To Another Language
from source content
arxiv.org
Djupare frågor