提案するGaNetは、勾配変換器(GradFormer)モジュールを使用して勾配情報を抽出し、グローバル特徴抽出モジュール(GFEM)を使用してコンテキスト情報を統合することで、赤外線小型ターゲットの検出性能を向上させる。
本研究は、一般的なセグメンテーションモデルを活用して、効率的かつ効果的な赤外線小型ターゲット検出のベースラインモデルを提案する。特に、知識蒸留と新しいクエリデザインを導入することで、汎用モデルの潜在能力を引き出し、従来の手法を大幅に上回る性能を実現する。
単一点ラベルから高品質なマスクを回復するためのハイブリッドマスク生成アプローチを提案する。手作業のアルゴリズムと深層学習の相補的な強みを活用し、単一点ラベルから初期擬似マスクを生成し、さらにそれを更新することで、高精度な最終的なマスクを得る。
本論文は、赤外線小型ターゲット検出(IRSTD)のための新しいアーキテクチャであるSCTransNetを提案している。 主な特徴は以下の通り: SCTransNetは、U字型のニューラルネットワークアーキテクチャに基づいており、空間チャンネルクロストランスフォーマーブロック(SCTB)を長距離スキップ接続に追加することで、全レベルの意味的特徴の融合を実現する。 SCTBには2つの主要な要素がある: a. 空間埋め込み単一ヘッドチャンネルクロスアテンション(SSCA)は、局所的な空間特徴と全レベルのグローバルチャンネル情報を交換し、エンコーダ間の曖昧さを解消し、画像の高レベルの意味的関連付けを促進する。 b. 補完的フィードフォワードネットワーク(CFN)は、マルチスケールの戦略とクロス空間チャンネル情報の相互作用を通じて特徴の弁別性を高め、エンコーダとデコーダ間の意味的ギャップを橋渡しする。 提案手法は、小型ターゲットと背景の意味的差異をエンコードすることで、内部表現を強化し、正確な検出を実現する。 3つの公開データセット(NUDT-SIRST、NUAA-SIRST、IRSTD-1K)での実験結果は、提案手法がSOTAの手法を上回ることを示している。
提案手法は、既存の損失関数の限界を克服するために、尺度と位置の感度性を持つ新しい損失関数を提案する。また、単純な構造のマルチスケールヘッドをU-Netに導入することで、既存の手法を大幅に上回る検出性能を実現する。