核心概念
本文提出了一種名為LAM-YOLO的基於YOLOv8的改進模型,專門用於解決無人機航拍圖像中小目標檢測難題,通過引入光照遮擋注意力機制、改進損失函數和增加輔助檢測頭等策略,有效提升了模型在複雜場景下的檢測精度。
摘要
LAM-YOLO: 基於光照遮擋注意力機制 YOLO 的無人機小目標檢測
論文概述
本論文提出了一種名為 LAM-YOLO 的新型目標檢測模型,專為解決無人機航拍圖像中普遍存在的小目標檢測難題而設計。該模型以 YOLOv8 為基礎,通過整合多個創新模塊,顯著提升了模型在複雜環境下的檢測精度。
主要貢獻
論文的主要貢獻可歸納如下:
- 增強型注意力機制: 論文引入了光照遮擋注意力模塊 (LAM),該模塊融合了通道注意力、自注意力和重疊交叉注意力機制,強化了模型對不同光照條件下目標特徵的感知能力,同時提升了對遮擋目標的關注度。
- 優化的回歸損失: 論文將軟交集邊界框 IoU (SIB-IoU) 整合到邊界框回歸損失中,並利用縮放因子生成不同大小的輔助邊界框進行損失計算,有效加速了模型收斂速度,並提升了定位精度。
- 輔助特徵檢測: 針對無人機圖像中目標尺寸變化大的問題,論文設計了一種輔助特徵檢測策略,在標準 YOLOv8 的三個檢測頭基礎上,新增兩個專門針對極小目標的輔助檢測頭,提升了模型對微小物體的檢測靈敏度。
- 實驗驗證: 論文在 VisDrone2019 公開數據集上進行了大量的實驗,結果表明 LAM-YOLO 在 mAP@0.5 和 mAP@0.5:0.95 指標上均優於 Faster R-CNN、YOLOv9 和 YOLOv10 等現有方法。與原始 YOLOv8 相比,平均精度提升了 7.1%。此外,實驗還證明了 SIB-IoU 損失函數在訓練過程中具有更快的收斂速度,並且相較於傳統損失函數,平均精度有所提升。
模型架構
LAM-YOLO 模型建立在 YOLOv8 架構之上,主要包含以下幾個關鍵模塊:
- 主幹網絡: 採用 CSPDarkNet 提取圖像特徵。
- 特徵金字塔網絡 (FPN): 用於融合不同尺度的特徵信息。
- 光照遮擋注意力模塊 (LAM): 嵌入到主幹網絡和瓶頸層的輸出層,增強模型對光照和遮擋的感知能力。
- Involution 模塊: 添加在主幹網絡和 FPN 之間,促進不同尺度特徵圖之間的交互,減少信息損失。
- 軟交集邊界框 IoU (SIB-IoU): 作為邊界框回歸損失函數,提升模型訓練速度和定位精度。
- 輔助檢測頭: 新增兩個分辨率為 160×160 和 320×320 的輔助檢測頭,專門用於檢測極小目標。
實驗結果
論文在 VisDrone2019 數據集上對 LAM-YOLO 模型進行了評估,並與其他先進的目標檢測方法進行了比較。實驗結果表明,LAM-YOLO 在 mAP@0.5 和 mAP@0.5:0.95 指標上均取得了最佳性能,證明了其在無人機小目標檢測任務中的有效性。
總結
LAM-YOLO 模型通過引入光照遮擋注意力機制、改進損失函數和增加輔助檢測頭等策略,有效解決了無人機航拍圖像中小目標檢測難題,提升了模型在複雜場景下的檢測精度。該模型在無人機目標檢測領域具有廣闊的應用前景。
統計資料
與原始 YOLOv8 相比,LAM-YOLO 的平均精度提升了 7.1%。
在 VisDrone2019 數據集上,LAM-YOLO 的 mAP@0.5 達到 48.8%,mAP@0.5:0.95 達到 29.9%。
行人、人和摩托車類別的 AP 值提升超過 10%。
使用 SIB-IoU 作為邊界框回歸損失函數時,模型的 mAP50 比使用 CIoU 時高 0.7%。