核心概念
提出一種新的端到端自動語音識別(ASR)方法,實現高效的語音情境學習(SICL),包括長篇語音解碼、測試時說話者適應和上下文偏置。
摘要
本文提出了一種基於注意力的編碼-解碼(AED)模型,稱為SICL-AED,用於實現語音情境學習(SICL)功能。SICL-AED的解碼器利用句子級交叉注意力有效整合編碼器的輸出,並使用文檔級自注意力學習上下文信息。在TEDLIUM3基準數據集上的評估中,SICL-AED相比基線的句子級AED模型實現了8.64%的詞錯誤率(WER)相對降低。它還與傳統的長篇AED系統相當,但顯著降低了運行時間和內存複雜度。此外,作者還提出了一種情境微調(ICFT)技術,進一步提高了SICL的有效性。在說話者適應和上下文偏置任務中的實驗突出了SICL-AED的一般語音情境學習能力,在不進行特定微調的情況下,即可實現監督AED基線的性能,並將實體召回率提高了64%。
統計資料
相比基線的句子級AED模型,SICL-AED實現了8.64%的詞錯誤率(WER)相對降低。
SICL-AED與傳統的長篇AED系統相當,但顯著降低了運行時間(33.3%和58.1%減少)和內存複雜度(50%和62.5%減少)。
在說話者適應任務中,SICL-AED搭配ICFT技術的性能與監督AED基線相當。
在上下文偏置任務中,SICL-AED搭配ICFT技術將實體召回率提高了64%。