核心概念
本文提出了一種基於 Conformer 和 BILSTM 的新型口吃事件檢測模型,該模型通過多任務學習策略,有效地提高了口吃檢測的準確性和實用性。
論文概述
本論文提出了一種基於 Conformer 和 BILSTM 的新型口吃事件檢測模型,旨在解決口吃研究中模型泛化能力和數據限制等關鍵挑戰。該模型首先利用 Conformer 模型從口吃語音中提取聲學特徵,然後結合 LSTM 捕捉上下文關係,並採用優化的多任務策略,在口吃檢測任務中展現出強大的性能。實驗結果表明,該模型顯著優於現有的最先進方法,突出了其在提高口吃檢測準確性和實用性方面的有效性,為語言病理學家評估口吃類型和嚴重程度提供了一個強大的工具。
研究背景
口吃是一種影響全球約 7000 萬人的主要言語障礙,約佔總人口的 1%。對於口吃者來說,口吃不僅會影響他們的社會功能,還會對他們的心理健康產生負面影響。隨著通訊技術的進步,這些影響呈現加劇趨勢。本研究旨在實現口吃的自動檢測,這項技術具有多項重要應用。例如,自動檢測可以幫助語言治療師減少與人工計算相關的工作量,使他們能夠更有效地評估口吃的嚴重程度。此外,它還可以為口吃者提供有關其言語流暢性的即時反饋。
研究方法
本研究提出的模型結構主要分為三個部分:
Conformer 特徵提取: 採用 Conformer 編碼器作為基線模型,從語音中提取 80 維的 fbank 特徵,並將其輸入 Conformer 編碼器,最後通過線性層進行分類。
BILSTM 上下文捕捉: 在基線 Conformer 模型之後引入兩層 BILSTM,用於提取語音中的長期上下文信息,以更好地捕捉語義的順序性和重複性關係。
多任務學習: 針對口吃症狀之間的高度相關性,但各自樣本比例不平衡的問題,採用多任務學習策略,引入額外的輔助任務,以增強訓練效果。
實驗結果
實驗結果表明,該模型在 AS-70 數據集上的五項任務中均取得了顯著的性能提升:
與未經預訓練的 Conformer 相比,經過 ASR 預訓練的 Conformer 的平均 F1 分數提高了 13.37%,展現出更高的魯棒性。
在 Conformer3、Conformer6 和 Conformer12 模型中,性能隨著層數的增加而逐漸提高,而 Conformer15 模型的性能則低於 Conformer12 模型,表明增加層數会导致过拟合。
BILSTM 的性能優於 LSTM,表明雙向依賴信息對於口吃任務更有效。
多任務學習有效地解決了模型的過擬合問題,但也限制了某些任務的最佳性能。
結論與展望
本研究提出了一種基於 Conformer 和 BILSTM 的新型口吃事件檢測模型,通過多任務學習策略,有效地提高了口吃檢測的準確性和實用性。未來的工作將集中於分析口吃檢測中任務之間的深層關係,以從理論角度增強可解釋性。此外,還將通過整合聲學信號和語義信息來進一步優化模型性能,並探索模型在其他口吃數據集上的應用和可擴展性。
統計資料
全球約有 7000 萬人患有口吃,約佔總人口的 1%。
在 AS-70 數據集中,對話任務中每分鐘口吃事件的比例為 15.58%,命令任務中為 8.11%。
與未經預訓練的 Conformer 相比,經過 ASR 預訓練的 Conformer 的平均 F1 分數提高了 13.37%。
在 Conformer3、Conformer6 和 Conformer12 模型中,性能隨著層數的增加而逐漸提高。
與多任務學習相比,任務 /b 和 /r 分別提高了 49.58% 和 13.33%。
對於任務 /p、[] 和 /i,性能分別下降了 3%、4% 和 18.5%。