本研究旨在解決鐵軌表面小型缺陷的檢測問題。首先,作者介紹了CBAM注意力機制和Swin Transformer模型的架構。CBAM可以自適應地重新校準特徵圖,提高模型對關鍵信息的關注。Swin Transformer則利用移動窗口機制捕捉全局上下文信息,克服了傳統CNN的局限性。
接下來,作者對兩個公開的鐵軌表面缺陷數據集MUET和RIII進行了統計分析和可視化。發現這些數據集中存在類別不平衡和缺陷尺寸較小的問題。因此,作者採用了數據增強和圖像增強等預處理技術,以提高模型的泛化能力。
實驗部分,作者將CBAM模塊集成到Swin Transformer的不同層級,包括模型級、階段級和塊級。結果顯示,CBAM-SwinT-BL(塊級集成)的性能最佳,在RIII和MUET數據集上的平均精確度分別提高了6.8%和4.9%,達到88.1%和69.1%。特別是對於小尺寸缺陷類別,如RIII的污垢和MUET的凹陷,精確度分別提高了23.0%和38.3%。
總的來說,本文提出的CBAM增強Swin Transformer模型在小型鐵軌表面缺陷檢測方面取得了顯著進步,為鐵路安全維護提供了有效的計算機視覺解決方案。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Jiayi Zhao, ... kl. arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.20113.pdfDybere Forespørgsler