本研究では、可視光と赤外線画像の特徴マッチングを行うXoFTRを提案している。可視光と赤外線画像は質感や輝度が大きく異なるため、従来の手法では性能が低下していた。
XoFTRでは以下の3つの主要な技術を導入している:
マスクド画像モデリング(MIM)による事前学習: 可視光と赤外線画像の違いを学習させるため、MIMを用いて事前学習を行う。
擬似的な赤外線画像を用いたファインチューニング: 可視光画像から擬似的な赤外線画像を生成し、それを用いてファインチューニングを行う。これにより、モダリティの違いに適応できる。
スケールの違いに対応する特徴マッチングパイプライン: 粗い特徴マッチングと細かい特徴マッチングを組み合わせ、さらにサブピクセルレベルでの精密なマッチングを行う。
これらの技術により、XoFTRは従来手法を大きく上回る性能を示している。特に、可視光と赤外線画像の相対姿勢推定や、ホモグラフィ推定の精度が大幅に向上している。また、新しい可視光-赤外線画像マッチングデータセットMETU-VisTIRを提案し、手法の有効性を示している。
To Another Language
from source content
arxiv.org
Глибші Запити