Kernekoncepter
本文提出了一種名為 CJST 的新型聯合語音和文本訓練框架,用於解碼器專用自動語音識別,該框架基於 CTC 壓縮器,無需處理時長即可有效地將文本注入模型,並在域內和跨域場景中均取得了最佳性能。
Resumé
論文概述
本文介紹了一種名為 CJST 的新型聯合語音和文本訓練框架,用於解碼器專用自動語音識別 (ASR)。該框架基於 CTC 壓縮器,旨在提高生產部署規模的解碼器專用 ASR 模型的性能,而無需使用外部語言模型。
主要內容
CTC 壓縮器的擴展
- 本文研究了四種壓縮模式:空白預測移除、相同預測平均、空白概率移除以及三者組合。
- 針對 CTC 壓縮器可能產生空輸出的邊緣情況,提出了兩種解決方案:空跳過和空回退。
- 探討了通過共享文本嵌入和 CTC 類別嵌入來增強語音和文本表示之間的聯繫。
聯合語音和文本訓練
- 將類似於語言模型的訓練作為基準,並提出了基於 CTC 壓縮器的聯合語音和文本訓練 (CJST) 框架。
- CJST 利用 CTC 壓縮器從兩個方向匹配語音和文本表示,無需考慮時長。
- 對於配對的語音-文本數據,使用強制峰值對齊和 CTC 類別嵌入來生成偽聲學嵌入,並使用均方誤差損失來訓練模態適配器。
- 對於純文本數據,根據記錄的長度比隨機插入空白,並使用生成的偽聲學提示來訓練解碼器模型。
實驗結果
- 在 Librispeech 和自建數據集上進行了實驗,結果表明空白概率移除(閾值為 0.95)是最穩健的壓縮模式。
- CJST 在域內和跨域文本注入方面均取得了最佳性能,在跨域評估中相對提高了約 6%,同時在域內評估中也取得了小幅提升。
總結
本文提出了一種基於 CTC 壓縮器的聯合語音和文本訓練框架 CJST,用於解碼器專用 ASR。通過全面的評估,證明了 CJST 能夠有效地進行聯合語音和文本訓練,並在域內和跨域場景中均取得了最佳性能。
Statistik
在 Librispeech 測試集上,使用空白概率移除(閾值為 0.95)的 CTC 壓縮器在 test-clean 和 test-other 上分別取得了 2.22% 和 4.94% 的 WER。
在自建數據集上,使用相同壓縮模式的 CTC 壓縮器取得了 12.85% 的 WER。
在 Librispeech 數據集上,從頭開始進行聯合語音和文本訓練,CJST 在 test-clean 和 test-other 上分別取得了 2.09% 和 4.71% 的 WER。
在繼續訓練 Librispeech 基礎模型並注入域內和域外純文本數據後,CJST 在 Librispeech test-clean 和 test-other 上分別取得了 2.17% 和 4.77% 的 WER,在 TED-LIUM2 測試集上取得了 10.14% 的 WER。
Citater
"This work focus on the continuous representations for the task of automatic speech recognition (ASR)."
"In this work, we propose a novel CTC compressor based joint speech and text training (CJST) framework for decoder-only ASR."
"Experimental results on the Librispeech and TED-LIUM2 corpora show that the proposed CJST achieves an effective text injection without the need of duration handling, leading to the best performance for both in-domain and cross-domain scenarios."