本文提出了一種內部聲學模型(IAM)訓練策略,以增強基於混合自回歸轉換器(HAT)的語音識別性能。
IAM由編碼器和聯合網絡組成,與HAT完全共享並進行聯合訓練。這種聯合訓練不僅提高了HAT的訓練效率,還能促進IAM和HAT同步發出空白符號,從而更有效地進行空白閾值處理,加快解碼速度。
實驗結果表明,與普通HAT相比,加入IAM的HAT在統計上有顯著的錯誤率降低。
此外,本文還提出了雙空白閾值處理,結合HAT和IAM的空白閾值處理方法,並設計了兼容的解碼算法。這種方法可以實現42-75%的解碼速度提升,而不會導致性能明顯下降。
在LibriSpeech數據集上的實驗也證實了所提方法的有效性。使用雙空白閾值處理和兼容解碼算法的HAT,在保持性能的情況下,解碼速度可以與普通CTC的解碼速度媲美。
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Takafumi Mor... ב- arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.20313.pdfשאלות מעמיקות