核心概念
本研究提出了一種結合耳蝸圖和視覺變壓器 (ViT) 的新型異音分類方法,並在 ICBHI 數據集上取得了卓越的分類性能,優於使用傳統時頻表示和 CNN 架構的現有方法。
文獻資訊: Mang, L.D.; González Martínez, F.D.; Martínez Muñoz, D.; García Galán, S.; Cortina, R. Classification of Adventitious Sounds Combining Cochleogram and Vision Transformers. Sensors 2024, 24, 682. https://doi.org/10.3390/s24020682
研究目標: 本研究旨在探討結合耳蝸圖和視覺變壓器 (ViT) 架構在異音分類中的性能表現。
方法: 本研究使用耳蝸圖作為輸入數據,並將其輸入 ViT 架構進行訓練和評估。研究人員將 ViT 的分類性能與其他使用頻譜圖、梅爾頻率倒譜系數、恆定 Q 轉換和耳蝸圖作為輸入數據的最先進 CNN 方法進行了比較。
主要發現: 結果表明,結合耳蝸圖和 ViT 的分類性能優於其他基於 CNN 的方法,證明了 ViT 在可靠的呼吸音分類方面的潛力。
主要結論: 本研究開發了一種自動化智能技術,旨在顯著提高呼吸系統疾病檢測的速度和效率,從而滿足醫療領域的關鍵需求。
意義: 本研究為異音分類領域貢獻了一種新穎且有效的方法,有可能改善呼吸系統疾病的早期診斷和治療。
局限性和未來研究: 未來的研究可以集中於評估該方法在更大、更多樣化的數據集上的性能,並探索其他類型的變壓器架構。
統計資料
使用 ICBHI 2017 數據集,其中包含 920 個錄音,採樣率為 4 kHz,每個呼吸週期調整為 6 秒。
異音分類的平均準確率:使用耳蝸圖的 ViT 模型對喘息聲的準確率為 85.9%,對爆裂聲的準確率為 75.5%。
與使用 STFT 相比,使用耳蝸圖在喘息聲分類方面平均提高了約 4.1%,在爆裂聲分類方面平均提高了約 2.3%。
所有評估的神經網絡架構在特異性方面的表現最佳,表明這些架構能夠準確預測患者何時健康。
精度是所有評估的神經網絡架構中表現最差的指標,這表明誤報(健康患者被分類為患病)的數量超過了漏報(患病患者被分類為健康)的數量。