XoFTRは、可視光と赤外線画像の特徴マッチングを行う新しいクロスモーダルTransformerアーキテクチャを提案する。可視光と赤外線画像の大きな質感と輝度の違いを克服するため、マスクド画像モデリングによる事前学習と擬似的な赤外線画像を用いたファインチューニングを行う。また、スケールの違いに対応するための新しい特徴マッチングパイプラインを導入し、サブピクセルレベルでの精密なマッチングを実現する。