核心概念
本文提出了一個端到端的變換器框架 OrientedFormer,通過三個專門的模塊來有效地編碼定向物體的角度、位置和大小,並引入幾何關係信息和對齊值與位置查詢,以解決直接將變換器擴展到定向物體檢測的三個主要問題。
摘要
本文提出了一個端到端的變換器框架 OrientedFormer,用於遙感影像中的定向物體檢測。
- 提出了高斯位置編碼(Gaussian PE),可以統一編碼定向物體的角度、位置和大小。它基於高斯分布構建,將角度、位置和大小統一到相同的度量中。
- 提出了Wasserstein自注意力,引入幾何關係信息。它利用高斯Wasserstein距離分數來測量不同內容查詢之間的幾何關係。
- 提出了定向交叉注意力,通過旋轉採樣點來對齊值和位置查詢,解決了由於定向物體而導致的不對齊問題。
- 在6個數據集上進行了廣泛的實驗,結果一致地證明了OrientedFormer在提高準確性方面的有效性。在DIOR-R和DOTA-v2.0數據集上,使用ResNet50作為骨幹網絡,OrientedFormer分別達到了67.28%和54.27%的AP50,創造了新的最佳基準。
統計資料
在DIOR-R數據集上,OrientedFormer使用ResNet50骨幹網絡達到了67.28%的AP50,優於之前的端到端檢測器1.16個百分點。
在DOTA-v1.0數據集上,OrientedFormer使用ResNet50骨幹網絡達到了75.37%的AP50,優於之前的端到端檢測器1.21個百分點。
與之前的端到端檢測器相比,OrientedFormer將訓練週期從3倍減少到1倍。
引述
"本文提出了一個端到端的變換器框架 OrientedFormer,通過三個專門的模塊來有效地編碼定向物體的角度、位置和大小,並引入幾何關係信息和對齊值與位置查詢,以解決直接將變換器擴展到定向物體檢測的三個主要問題。"
"在6個數據集上進行了廣泛的實驗,結果一致地證明了OrientedFormer在提高準確性方面的有效性。在DIOR-R和DOTA-v2.0數據集上,使用ResNet50作為骨幹網絡,OrientedFormer分別達到了67.28%和54.27%的AP50,創造了新的最佳基準。"