核心概念
提出一種內部聲學模型(IAM)訓練策略,可以增強基於混合自回歸轉換器(HAT)的語音識別性能。IAM與HAT共享參數並進行聯合訓練,不僅提高了HAT的訓練效率,還能促進IAM和HAT同步發出空白符號,從而更有效地進行空白閾值處理,加快解碼速度。
要約
本文提出了一種內部聲學模型(IAM)訓練策略,以增強基於混合自回歸轉換器(HAT)的語音識別性能。
-
IAM由編碼器和聯合網絡組成,與HAT完全共享並進行聯合訓練。這種聯合訓練不僅提高了HAT的訓練效率,還能促進IAM和HAT同步發出空白符號,從而更有效地進行空白閾值處理,加快解碼速度。
-
實驗結果表明,與普通HAT相比,加入IAM的HAT在統計上有顯著的錯誤率降低。
-
此外,本文還提出了雙空白閾值處理,結合HAT和IAM的空白閾值處理方法,並設計了兼容的解碼算法。這種方法可以實現42-75%的解碼速度提升,而不會導致性能明顯下降。
-
在LibriSpeech數據集上的實驗也證實了所提方法的有效性。使用雙空白閾值處理和兼容解碼算法的HAT,在保持性能的情況下,解碼速度可以與普通CTC的解碼速度媲美。
統計
使用雙空白閾值處理和兼容解碼算法的HAT,在TLv2測試集上可以實現72%的離線解碼速度提升,在流式模式下可以實現42%的解碼速度提升。
在LibriSpeech測試集上,使用雙空白閾值處理和兼容解碼算法的HAT,可以實現75%的離線解碼速度提升,在流式模式下可以實現45%的解碼速度提升。
引用
"IAM由編碼器和聯合網絡組成,與HAT完全共享並進行聯合訓練。這種聯合訓練不僅提高了HAT的訓練效率,還能促進IAM和HAT同步發出空白符號,從而更有效地進行空白閾值處理,加快解碼速度。"
"實驗結果表明,與普通HAT相比,加入IAM的HAT在統計上有顯著的錯誤率降低。"
"此外,本文還提出了雙空白閾值處理,結合HAT和IAM的空白閾值處理方法,並設計了兼容的解碼算法。這種方法可以實現42-75%的解碼速度提升,而不會導致性能明顯下降。"