本研究では、赤外線画像と可視画像の融合のための新しいアーキテクチャ「FuseFormer」を提案する。FuseFormerは、CNNとTransformerを組み合わせた二つのブランチを持ち、局所的な特徴と大域的なコンテキストを効果的に融合する。
まず、オートエンコーダを使用して多スケールの特徴を抽出する。次に、提案する融合ブロックでこれらの特徴を融合する。CNNブランチは局所的な特徴を捉え、Transformerブランチは大域的なコンテキストを捉える。
また、従来の損失関数は可視画像への偏りが生じる問題があった。そこで、提案する新しい損失関数は両入力画像の特徴を考慮することで、定量的および定性的な結果の向上を実現する。
提案手法をベンチマークデータセットで評価した結果、既存の手法と比較して優れた性能を示した。特に、低照度環境での融合結果が良好であった。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문