本文提出了一種新的多說話者自動語音辨識方法 (MT-RNNT-AFT),能夠在不依賴外部ASR系統的對齊資訊的情況下進行訓練。MT-RNNT-AFT採用標準的RNN Transducer (RNNT)架構,並引入提示符號來指示每個說話者在語音混合中的出現順序。在訓練時,每個說話者的目標標籤都會在開頭加上相應的提示符號。這樣可以避免依賴準確的時間對齊資訊,大大簡化了訓練過程。
在推理時,MT-RNNT-AFT可以以先進先出的方式同時辨識所有說話者的語音,只需要進行一次編碼器處理。解碼器可以通過批處理的方式同時辨識所有說話者的語音,因為使用了相同的參數。這樣大大降低了計算成本,相比於需要為每個說話者單獨進行編碼器處理的方法有顯著優勢。
此外,作者還提出了一種自我知識蒸餾的方法,利用單說話者和多說話者的並行數據來進一步提升MT-RNNT-AFT的性能。實驗結果顯示,MT-RNNT-AFT在離線和流式模式下都能達到與目前最先進方法相當的性能,同時大幅簡化了訓練過程。
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Takafumi Mor... ב- arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.20301.pdfשאלות מעמיקות