本文提出了一個名為Pretrain-based Dual-filter Dysarthria Wake-up word Spotting (PD-DWS)的端到端系統,參與了SLT 2024 Low-Resource Dysarthric Wake-Up Word Spotting (LRDWWS)挑戰。該系統從兩個關鍵方面提高了性能:音頻建模和雙過濾策略。
在音頻建模部分,提出了一種創新的2branch-d2v2模型,通過在預訓練的data2vec2(d2v2)模型上進行多任務微調,同時建模自動語音識別(ASR)和喚醒詞檢測(WWS)任務。此外,還引入了雙過濾策略,以降低誤報率(FAR)同時保持相同的誤檢率(FRR)。
實驗結果表明,PD-DWS系統在test-B評估集上實現了0.00321的FAR和0.005的FRR,總分為0.00821,在挑戰賽中獲得第一名。
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Shuiyun Liu,... о arxiv.org 09-17-2024
https://arxiv.org/pdf/2409.10076.pdfГлибші Запити