核心概念
提出一種高效的多光譜早期融合物體檢測方法,通過解決信息干擾、領域差距和特徵表示能力弱等問題,顯著提升了單分支網絡的性能,同時保持了高效率。
摘要
本文提出了一種高效的多光譜早期融合物體檢測方法(EME)。首先,作者發現現有的單分支早期融合策略存在三個主要問題:1)信息干擾問題,即簡單拼接RGB和熱像圖會導致重要信息被抑制;2)領域差距問題,即RGB和熱像圖之間存在較大的差距,使得預訓練的骨幹網絡難以有效提取特徵;3)特徵表示能力弱問題,即單分支網絡參數較少,融合模塊較簡單,難以達到與雙分支網絡相同的性能。
為解決上述問題,作者提出了三個關鍵模塊:
形狀優先早期融合(ShaPE)模塊:利用RGB和熱像圖的梯度信息生成自注意力掩碼,以自適應地確定不同光譜信息的重要性,從而解決信息干擾問題。
弱監督學習方法:引入CLIP模型和輔助分割任務,減小RGB和熱像圖之間的領域差距,並提升語義定位能力。
核心知識蒸餾(CoreKD)技術:選擇性地從強大的雙分支教師模型中蒸餾最關鍵的知識,增強單分支學生模型的特徵表示能力。
實驗結果表明,EME在保持高效率的同時,顯著提升了物體檢測性能,並且優於現有的雙分支方法。
統計資料
在M3FD數據集上,EME的mAP50提升了7.9%,參數減少了81.7%。
在FLIR數據集上,EME的mAP50提升了9.9%,參數減少了99.9%。
引述
"提出一種高效的多光譜早期融合物體檢測方法,通過解決信息干擾、領域差距和特徵表示能力弱等問題,顯著提升了單分支網絡的性能,同時保持了高效率。"
"實驗結果表明,EME在保持高效率的同時,顯著提升了物體檢測性能,並且優於現有的雙分支方法。"