核心概念
本文提出了一種名為遮擋感知無縫分割 (OASS) 的新型全景圖像分割任務,並設計了一個名為 UnmaskFormer 的框架來解決該任務中的三大挑戰:視野狹窄、遮擋和領域差異。
摘要
文獻類型
研究論文
書目資訊
Cao, Y., Zhang, J., Shi, H., Peng, K., Zhang, Y., Zhang, H., Stiefelhagen, R., & Yang, K. (2024). Occlusion-Aware Seamless Segmentation. arXiv preprint arXiv:2407.02182v3.
研究目標
- 提出一個新的全景圖像分割任務:遮擋感知無縫分割 (OASS)。
- 設計一個能夠解決 OASS 任務中三大挑戰(視野狹窄、遮擋和領域差異)的框架。
方法
- 提出了一個名為 UnmaskFormer 的框架,該框架包含以下關鍵設計:
- 遮擋感知注意力機制 (UA):通過自注意力和增強池化層來預測遮擋。
- 可變形補丁嵌入 (DPE):解決全景圖像的失真問題。
- 模態導向混合 (AoMix):解決針孔和全景域之間的差異,並增強模型重建被遮擋物體不可見區域的能力。
- 建立了一個新的全景圖像數據集 BlendPASS,用於評估 OASS 模型。
主要發現
- UnmaskFormer 在 BlendPASS 數據集上達到了 43.66% 的 mIoU 和 26.58% 的 mAPQ,實現了最先進的性能。
- 在全景語義分割數據集 SynPASS 和 DensePASS 上,UnmaskFormer 的性能也優於先前的方法,分別獲得了 45.34% 和 48.08% 的 mIoU。
主要結論
- UnmaskFormer 框架可以有效地解決全景圖像分割中的視野狹窄、遮擋和領域差異等挑戰。
- BlendPASS 數據集為 OASS 任務提供了一個有價值的基準。
意義
- OASS 任務的提出推動了全景圖像理解領域的發展。
- UnmaskFormer 框架為解決 OASS 任務提供了一種有效的方法。
- BlendPASS 數據集為 OASS 模型的訓練和評估提供了便利。
局限和未來研究
- 未來的工作可以探索更先進的注意力機制和領域自適應技術,以進一步提高 OASS 的性能。
- 可以將 UnmaskFormer 框架應用於其他計算機視覺任務,例如目標檢測和視頻理解。
統計資料
BlendPASS 數據集包含 2,000 張用於領域自適應的未標記全景圖像和 100 張用於評估的標記全景圖像。
BlendPASS 數據集中的圖像分辨率為 2048×400 像素。
BlendPASS 數據集包含 19 個類別,與 Cityscapes 數據集一致。
在 BlendPASS 數據集的測試集中,共標記了 2,960 個 Thing 類別的物體,其中 43% 的物體存在遮擋。
KITTI360-APS 數據集包含 12,320 張標記圖像,用於 OASS 任務中的源域。
KITTI360-APS 數據集的圖像分辨率為 1408×376 像素。
UnmaskFormer 在 KITTI360-APS→BlendPASS 基準測試中達到了 43.66% 的 mIoU 和 26.58% 的 mAPQ。
UnmaskFormer 在 SynPASS 數據集上達到了 45.34% 的 mIoU。
UnmaskFormer 在 DensePASS 數據集上達到了 48.08% 的 mIoU。