本文提出了一種用於異常聲音檢測(ASD)的新穎系統,主要包括以下內容:
探索了多種預訓練音頻模型在ASD任務中的表現,包括Wav2Vec2、Qwen-Audio、BEATs和CED等。結果顯示,在AudioSet上預訓練的模型一致優於在語音相關任務上預訓練的模型。
採用低秩適應(LoRA)微調的方法,相比於完全微調,可以顯著減少計算資源的需求,同時保持了模型在下游任務上的性能。通過實驗分析,確定了LoRA中超參數r的最佳值為64。
進一步探索了LoRA參數在不同Transformer層和參數矩陣中的影響。結果表明,v矩陣和靠近輸出層的參數對結果影響更大。
提出了三種LoRA參數調整策略,其中將後半部分v矩陣維度增加1.5倍的方法在評估集上取得了新的最高成績,達到77.75%。
與之前SOTA模型相比,本文提出的方法在DCASE 2023 Task 2數據集上取得了顯著的性能提升,充分展示了音頻預訓練模型和LoRA微調在提高ASD泛化能力方面的潛力。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Xinhu Zheng,... a las arxiv.org 09-12-2024
https://arxiv.org/pdf/2409.07016.pdfConsultas más profundas