本文提出了Sortformer,一種新型的神經網絡模型,用於解決喇叭分離問題。Sortformer與現有的端到端喇叭分離模型不同,採用了不同的目標函數。
首先,Sortformer引入了排序損失(Sort Loss),使模型能夠自主解決喇叭排序問題,而無需依賴於傳統的置換不變損失(PIL)。結合排序損失和PIL,Sortformer的性能可以與專門使用PIL訓練的最先進端到端喇叭分離模型相媲美。
其次,Sortformer提出了一種簡化的多喇叭自動語音辨識(ASR)架構,將喇叭標籤估計嵌入到ASR編碼器狀態中,使用正弦核函數來解決喇叭排序問題。這種方法通過排序目標來解決喇叭排序問題,有效地將喇叭標籤時間戳和喇叭標記連接起來。
實驗結果表明,該多喇叭ASR系統在使用喇叭監督的情況下,通過適配器技術可以提高性能。作者將通過NVIDIA NeMo框架公開代碼和訓練好的模型。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы