核心概念
本文提出了一種基於詞組解耦的跨模態層次匹配和漸進式位置校正的視覺定位方法,通過挖掘文本和圖像之間的層次關聯,實現對目標物體的精確定位。
摘要
論文概述
本論文提出了一種新的單階段視覺定位方法,旨在解決現有方法忽略不同層次文本和圖像特徵之間關聯性的問題。該方法主要由四個部分組成:全局特徵跨模態對齊(GFCMA)、層次掩碼生成(HMG)、跨模態層次匹配(CMHM)和漸進式位置校正(PPC)。
方法詳解
全局特徵跨模態對齊(GFCMA)
GFCMA 主要通過視覺編碼分支和文本編碼分支來建立文本和圖像之間的全局關係,為後續建立層次關聯提供全局信息。
層次掩碼生成(HMG)
HMG 從輸入文本中解析短語,並使用它們為 CMHM 創建掩碼。
跨模態層次匹配(CMHM)
在層次掩碼的驅動下,CMHM 實現了跨模態特徵層次匹配,允許特徵跨不同層次關聯。
漸進式位置校正(PPC)
PPC 使用層次匹配結果逐步校正目標對象位置,通過層次語義聚合(HSA)和層次位置校正(HPC)來實現。
實驗結果
在 ReferItGame、RefCOCO、RefCOCO+ 和 RefCOCOg 數據集上的實驗結果表明,該方法在準確性和效率方面均優於現有方法。
主要貢獻
- 提出了一種漸進式層次關聯挖掘方法,建立了文本和圖像特徵之間的結構化層次關聯,突出了與目標對象對齊的特徵的作用。
- 基於文本和圖像之間的層次匹配關聯,進一步設計了一種用於目標對象檢測的漸進式位置校正方案,實現了對文本中指定目標對象的精確定位。
- 在三個指稱表達式數據集上的實驗結果證明了該方法的有效性,以及與現有方法相比的優越性。此外,它在計算效率方面也表現出一定的優勢。
統計資料
在 RefCOCOg 驗證數據集上,使用 ResNet-50 作為視覺骨幹時,該方法比 D-MDETR 的性能提高了 3.07%。
使用 ResNet-101 時,該方法在 RefCOCO+ testB 數據集上比 VLTVG 提高了 3.52%。
使用 ViT-base 時,該方法在 RefCOCO+ testB 數據集上比 JMRI 提高了 8.88%。
使用 Swin-Base 作為視覺骨幹時,該方法在 RefCOCOg 驗證數據集上比 LUNA 提高了 3.25%。
在 RefCOCO+ 驗證數據集上,該方法比 CLIP-VG 顯著提高了 4.73%。
在 ReferItGame 測試數據集和 RefCOCO+ testB 數據集上,該方法分別提升了 2.97% 和 5.4%。
使用 ResNet-50 作為骨幹的模型速度最快,在相同條件下評估時,推理時間為 29 毫秒。