核心概念
本文提出了一種基於注意力機制和可分離卷積的低複雜度深度神經網絡,用於無監督異常聲音檢測,並在 DCASE 2020 挑戰賽數據集上驗證了其有效性。
摘要
論文摘要
本研究提出了一種基於深度學習的無監督異常聲音檢測方法,旨在提高檢測效率和準確性。該方法採用注意力模組和可分離卷積,識別音頻數據中的顯著時頻模式,以區分正常和異常聲音,同時降低計算複雜度。
研究方法
- 特徵提取:使用對數梅爾頻譜圖和 Wavegram 作為時頻特徵表示,並將其串聯作為模型輸入。
- 注意力模組:利用注意力機制學習時頻特徵中的顯著區域,以突出顯示對分類任務最重要的部分。
- 數據增強:採用 mixup 技術進行數據增強,以提高模型的魯棒性。
- 自監督異常分數計算:使用 ArcFace 作為分類層,並根據預測的元數據和真實標籤之間的分類誤差計算異常分數。
實驗結果
- 使用 DCASE 2020 挑戰賽數據集進行評估,結果表明該方法在異常檢測準確率方面優於現有方法,同時參數數量更少。
- 在六種設備類型(風扇、泵、滑塊、閥門、玩具車和玩具輸送機)中,該方法在其中三種(閥門、玩具車和玩具輸送機)上表現最佳。
- 消融實驗證明了注意力模組和可分離卷積的有效性。
結論
本研究提出了一種基於低複雜度注意力機制的無監督異常聲音檢測方法,並通過實驗驗證了其在機器監控場景中的有效性。未來研究方向包括改進注意力模組,以及應對更複雜的聲音異常檢測任務,例如少樣本和單樣本無監督異常檢測。
統計資料
該方法在 ToyConveyor 設備上的 AUC 值最高,達到 84.59%。
與其他最先進的方法相比,該方法的參數數量減少了約 13%。
注意力機制主要關注對數梅爾頻譜圖中 1.7 到 8 kHz 的高頻區域。
引述
"The response time of an anomaly detector is critical to limit the damage caused by an anomalous event."
"In this work, for the first time in the literature, we employ an attention module to provide explanations for the decisions made by the anomaly detection system."
"Our system offers a good trade-off between model complexity and performance."