本文提出了一種基於注意力的編碼-解碼(AED)模型,稱為SICL-AED,用於實現語音情境學習(SICL)功能。SICL-AED的解碼器利用句子級交叉注意力有效整合編碼器的輸出,並使用文檔級自注意力學習上下文信息。在TEDLIUM3基準數據集上的評估中,SICL-AED相比基線的句子級AED模型實現了8.64%的詞錯誤率(WER)相對降低。它還與傳統的長篇AED系統相當,但顯著降低了運行時間和內存複雜度。此外,作者還提出了一種情境微調(ICFT)技術,進一步提高了SICL的有效性。在說話者適應和上下文偏置任務中的實驗突出了SICL-AED的一般語音情境學習能力,在不進行特定微調的情況下,即可實現監督AED基線的性能,並將實體召回率提高了64%。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Hao Yen, Sha... om arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19757.pdfDiepere vragen