Core Concepts
プレトレーニングされたマスクオートエンコーダのエンコーダを活用することで、低レベルの再構築と高レベルの視覚情報の両方を効率的に抽出し、ガイド付き学習によりフィーチャー空間の整合性を保ちつつ、赤外線と可視光画像の融合を実現する。
Abstract
本研究では、赤外線と可視光画像の融合(IVIF)のための新しい自動エンコーダモデルであるMaeFuseを提案している。従来のIVIF手法は、下流タスクを活用して高レベルの視覚情報を得ようとしていたが、データ不足の問題に直面していた。
MaeFuseでは、代わりにマスクオートエンコーダ(MAE)のプレトレーニングされたエンコーダを活用することで、低レベルの再構築と高レベルの視覚情報の両方を効率的に抽出できる。しかし、異なるモダリティ間のフィーチャー空間の差異や、MAEエンコーダによるブロック効果の問題があった。
そこで本手法では、ガイド付き学習戦略を提案している。この戦略では、フュージョン層の出力をエンコーダのフィーチャー空間に徐々に整合させることで、局所最適解への収束を回避し、赤外線と可視光の特徴を包括的に統合することができる。
この新しい視点に基づくMaeFuseは、様々な公開データセットで優れた性能を示している。
Stats
赤外線画像と可視光画像の特徴ベクトルをΦIとΦVと表す
比較的融合モジュール(CFM)の出力をΦDと表す
最終的な融合特徴ベクトルをΦFと表す
Quotes
"MaeFuseは、従来の融合手法とは一線を画す新しい視点を提示するとともに、様々な公開データセットで優れた性能を示している。"
"ガイド付き学習戦略は、フュージョン層の出力をエンコーダのフィーチャー空間に徐々に整合させることで、局所最適解への収束を回避し、赤外線と可視光の特徴を包括的に統合することができる。"