本文提出了一個名為Pretrain-based Dual-filter Dysarthria Wake-up word Spotting (PD-DWS)的端到端系統,參與了SLT 2024 Low-Resource Dysarthric Wake-Up Word Spotting (LRDWWS)挑戰。該系統從兩個關鍵方面提高了性能:音頻建模和雙過濾策略。
在音頻建模部分,提出了一種創新的2branch-d2v2模型,通過在預訓練的data2vec2(d2v2)模型上進行多任務微調,同時建模自動語音識別(ASR)和喚醒詞檢測(WWS)任務。此外,還引入了雙過濾策略,以降低誤報率(FAR)同時保持相同的誤檢率(FRR)。
實驗結果表明,PD-DWS系統在test-B評估集上實現了0.00321的FAR和0.005的FRR,總分為0.00821,在挑戰賽中獲得第一名。
翻譯成其他語言
從原文內容
arxiv.org
深入探究