核心概念
本文提出了一種基於檢索增強方法的無監督異常聲音檢測與標註方法,利用預先訓練好的 CLAP 模型,無需額外訓練即可實現高精度的異常聲音檢測和與異常原因一致的文字標註。
摘要
文獻摘要
本研究論文提出了一種基於檢索增強方法的無監督異常聲音檢測與標註方法,旨在解決現有方法需要大量標註數據和模型訓練的局限性。該方法採用預先訓練好的對比語言-音頻預訓練模型(CLAP)作為骨幹,利用其音頻編碼器進行異常聲音檢測,並通過將嵌入向量輸入到文本解碼器中生成對應的文字標註。
研究方法
- 異常聲音檢測: 使用 CLAP 的音頻編碼器提取聲音嵌入向量,並利用 k 最近鄰算法計算異常分數,根據預設閾值判斷聲音是否異常。
- 差異標註生成:
- 基於文本解碼器的方法: 分別將異常聲音和參考正常聲音的嵌入向量輸入到 CLAP 的文本解碼器中生成文字描述,然後利用 GPT-4 比較這些描述,生成解釋異常聲音與正常聲音差異的文字標註。
- 基於零樣本分類的方法: 預先定義一組描述機器故障聲音常見特徵的參考文本,計算每個文本嵌入向量與音頻嵌入向量之間的餘弦相似度,並將這些相似度分數輸入到 GPT-4 中,生成基於特定聲音特徵差異的文字標註。
- 組合方法: 結合上述兩種方法,將文字描述和相似度分數都輸入到 GPT-4 中,生成更全面且信息豐富的差異標註。
實驗結果
- 異常聲音檢測: 在 DCASE 2020 Challenge Task 2 Development Dataset 上進行的實驗表明,CLAP 嵌入向量的異常聲音檢測性能與其他預訓練模型相當。
- 差異標註生成: 主觀評估結果顯示,基於文本解碼器的方法和基於零樣本分類的方法都能夠生成一定程度上與異常原因相符的文字標註,而組合方法的平均 MOS 值最高,表明其能夠結合兩種方法的優勢,生成更準確和全面的標註。
研究結論
本研究提出的基於檢索增強方法的無監督異常聲音檢測與標註方法,無需額外訓練即可實現高精度的異常聲音檢測和與異常原因一致的文字標註,為工業設備故障診斷等領域提供了一種高效且實用的解決方案。
統計資料
在 DCASE 2020 Challenge Task 2 Development Dataset 上進行實驗。
使用 k = 4 的 k 最近鄰算法進行異常聲音檢測。
主觀評估採用平均意見得分(MOS),評分範圍為 1 到 5,其中 5 代表最好。
共評估了 69 組數據-標註對,每個方法對應 23 組。