核心概念
本文提出了一種基於 Transformer 的方法,用於估計真實世界場景中非重疊圖像對之間的相對 3D 旋轉,並引入了一個由場景級別互聯網照片集組裝而成的 ExtremeLandmarkPairs 數據集,證明了該方法在處理真實世界圖像方面的有效性。
摘要
書目信息
Bezalel, H., Ankri, D., Cai, R., & Averbuch-Elor, H. (2024). Extreme Rotation Estimation in the Wild. arXiv preprint arXiv:2411.07096v1.
研究目標
本研究旨在解決在真實世界場景中,特別是當圖像視野有限或不重疊時,估計圖像對之間相對 3D 旋轉的挑戰。
方法
- 研究人員創建了一個名為 ExtremeLandmarkPairs (ELP) 的新基準數據集,該數據集由從 MegaDepth、Cambridge Landmarks 和 MegaScenes 數據集中提取的真實世界圖像對組成。
- 他們提出了一種基於 Transformer 的模型,該模型利用預先訓練的 LoFTR 模型提取圖像特徵,並結合輔助通道(如關鍵點和成對匹配掩碼以及語義分割圖)來提高性能。
- 為了克服真實圖像對的限制,他們採用了一種漸進式學習方案,首先利用從全景圖像中裁剪的透視圖像對模型進行訓練,然後使用數據增強技術(如視野 (FoV) 增強和圖像級別外觀增強)逐步使模型適應真實世界的互聯網圖像。
主要發現
- 與先前在模擬透視圖像上訓練的方法相比,所提出的方法在 ELP 測試集上表現出顯著的改進,證明了其在真實世界場景中的有效性。
- 漸進式學習方案和輔助通道的使用顯著提高了模型的性能,特別是在處理非重疊圖像對時。
- 該模型在真實世界互聯網圖像對上取得了有希望的結果,突出了該任務的內在難度,並表明通過利用所提出的數據集,未來技術可以取得顯著進展。
意義
這項研究通過引入一個新的基準數據集和一種強大的基於 Transformer 的方法,為在真實世界場景中進行極端旋轉估計做出了貢獻,為未來的研究和應用鋪平了道路。
局限性和未來研究方向
- 儘管該模型在真實世界圖像對上表現良好,但對於非重疊圖像對,中值誤差仍然相對較高,這表明還有改進的空間。
- 未來的研究可以探索將更多視圖納入其中,以提高在這種極端非重疊場景中的性能。
- 所提出的成對數據還可能用於探索在真實世界環境中估計極端平移的挑戰性任務。
統計資料
ELP 訓練集包含近 34K 個非重疊圖像對,這些圖像對來自 2K 多個獨特地標。
sELP 測試集包含來自 Cambridge Landmarks 數據集的圖像,該數據集包含六個不同地標的視頻。
wELP 測試集包含來自 MegaDepth 數據集的圖像,該數據集包含 Flickr 上一組大型地標的互聯網照片。
對於非重疊圖像對,通過總體相對角度來平衡數據集。
Dust3R(帶有 DPT 頭)包含 5.77 億個參數,而本文提出的模型要緊湊得多,只有 8000 萬個參數。
引述
"In this work, we aim to address pose estimation for realistic in-the-wild non-overlapping image pairs, enhancing the applicability of extreme pose estimation to Internet photos and real-world data."
"Our results demonstrate that our model can accurately predict the relative rotations for a wide variety of extreme-view image pairs that vary in illumination, dynamic regions, and intrinsic parameters."