核心概念
本文提出了一種基於自監督學習和預訓練模型的新穎系統,通過利用音頻預訓練模型並採用低秩適應(LoRA)微調的方法,在DCASE 2023 Task 2數據集上取得了顯著的性能提升,達到了77.75%的評估集成績,較之前最佳模型提高了6.48%。
摘要
本文提出了一種用於異常聲音檢測(ASD)的新穎系統,主要包括以下內容:
探索了多種預訓練音頻模型在ASD任務中的表現,包括Wav2Vec2、Qwen-Audio、BEATs和CED等。結果顯示,在AudioSet上預訓練的模型一致優於在語音相關任務上預訓練的模型。
採用低秩適應(LoRA)微調的方法,相比於完全微調,可以顯著減少計算資源的需求,同時保持了模型在下游任務上的性能。通過實驗分析,確定了LoRA中超參數r的最佳值為64。
進一步探索了LoRA參數在不同Transformer層和參數矩陣中的影響。結果表明,v矩陣和靠近輸出層的參數對結果影響更大。
提出了三種LoRA參數調整策略,其中將後半部分v矩陣維度增加1.5倍的方法在評估集上取得了新的最高成績,達到77.75%。
與之前SOTA模型相比,本文提出的方法在DCASE 2023 Task 2數據集上取得了顯著的性能提升,充分展示了音頻預訓練模型和LoRA微調在提高ASD泛化能力方面的潛力。
統計資料
本文方法在DCASE 2023 Task 2數據集上取得了77.75%的評估集成績,較之前最佳模型提高了6.48%。
在不同機器類型上,本文方法的AUC分數大多優於之前的SOTA模型。
引述
"本文提出了一種基於自監督學習和預訓練模型的新穎系統,通過利用音頻預訓練模型並採用低秩適應(LoRA)微調的方法,在DCASE 2023 Task 2數據集上取得了顯著的性能提升。"
"結果表明,在AudioSet上預訓練的模型一致優於在語音相關任務上預訓練的模型。"
"通過實驗分析,確定了LoRA中超參數r的最佳值為64。"