แนวคิดหลัก
本文提出了VLAD-BuFF方法,通過兩個創新點來提高視覺場所識別的性能:1)在端到端學習過程中引入自相似性加權機制來解決特徵突發性問題;2)通過PCA初始化的可學習預投影來減少特徵維度,從而加快特徵聚合過程,而不會影響識別性能。
บทคัดย่อ
本文提出了VLAD-BuFF方法,旨在解決視覺場所識別(VPR)任務中的兩個關鍵問題:
- 特徵突發性問題:VLAD聚合方法無法處理重複結構(如陰影、窗戶)所導致的特徵突發性,從而影響識別性能。本文提出了一種基於自相似性的特徵加權機制,在端到端學習過程中學習突發性感知的特徵表示。
- 聚合效率問題:VLAD聚合過程計算量大,尤其是對於高維特徵的情況。本文提出了一種PCA初始化的可學習預投影方法,可以大幅降低特徵維度而不會影響識別性能,從而提高聚合效率。
在9個公開數據集上的實驗結果表明,VLAD-BuFF取得了新的最佳成績,並且即使將特徵維度降低12倍,仍然能保持很高的召回率。通過定性分析,我們展示了VLAD-BuFF的加權機制如何有效地降低非區分性特徵的貢獻。
สถิติ
即使將特徵維度從768降低到64,VLAD-BuFF仍能保持很高的召回率。
相比於隨機初始化的線性投影或MLP,PCA初始化的線性投影能更好地保持高召回率。
在不同的訓練配置(數據集-損失函數-骨幹網絡)下,VLAD-BuFF一致優於vanilla VLAD。
คำพูด
"本文提出了VLAD-BuFF方法,通過兩個創新點來提高視覺場所識別的性能:1)在端到端學習過程中引入自相似性加權機制來解決特徵突發性問題;2)通過PCA初始化的可學習預投影來減少特徵維度,從而加快特徵聚合過程,而不會影響識別性能。"
"在9個公開數據集上的實驗結果表明,VLAD-BuFF取得了新的最佳成績,並且即使將特徵維度降低12倍,仍然能保持很高的召回率。"