Concetti Chiave
本研究提出兩種訓練方法,利用有限的標點數據,實現可同時輸出帶標點和標準化文本的端到端語音識別系統。
文獻資訊: Cui, C., Sheikh, I., Sadeghi, M., & Vincent, E. (2024). End-to-end Joint Punctuated and Normalized ASR with a Limited Amount of Punctuated Training Data. arXiv preprint arXiv:2311.17741v2.
研究目標: 本研究旨在解決大多數語音識別語料庫缺乏配對語音和標點文本數據,導致聯合標點和標準化自動語音識別 (ASR) 任務具有挑戰性的問題。
研究方法: 研究提出兩種方法來訓練端到端聯合標點和標準化 ASR 系統:
使用語言模型將標準化訓練文本轉換為帶標點文本。
使用根據輸出類型進行調節的單個解碼器。
主要發現:
使用語言模型生成標點訓練文本的方法在域外測試數據上取得了更好的性能,相對 Punctuation-Case-aware Word Error Rate (PC-WER) 降低了 17%。
使用單個調節解碼器的方法與 Whisper-base 相比,相對 PC-WER 降低了 42%,與僅標點模型的標準化輸出相比,相對(標準化)WER 降低了 4%。
此外,該模型證明了僅使用 5% 的標點訓練數據即可實現聯合 ASR 系統的可行性,並且 PC-WER 僅略微增加 (2.42%)。
主要結論: 本研究提出的兩種方法都能有效地訓練出高效的聯合標點和標準化 ASR 系統,即使在標點訓練數據有限的情況下也是如此。
研究意義: 本研究對於需要同時輸出帶標點和標準化文本的語音識別應用具有重要意義,例如會議記錄、聽寫和對話系統。
研究限制和未來方向: 未來的研究可以探索更先進的語言模型和調節技術,以進一步提高 ASR 系統在標點和標準化方面的性能。
Statistiche
使用語言模型生成標點訓練文本的方法在域外測試數據上取得了更好的性能,相對 Punctuation-Case-aware Word Error Rate (PC-WER) 降低了 17%。
使用單個調節解碼器的方法與 Whisper-base 相比,相對 PC-WER 降低了 42%,與僅標點模型的標準化輸出相比,相對(標準化)WER 降低了 4%。
此外,該模型證明了僅使用 5% 的標點訓練數據即可實現聯合 ASR 系統的可行性,並且 PC-WER 僅略微增加 (2.42%)。