Sammendrag
本論文は、赤外線小型ターゲット検出(IRSTD)のための新しいアーキテクチャであるSCTransNetを提案している。
主な特徴は以下の通り:
SCTransNetは、U字型のニューラルネットワークアーキテクチャに基づいており、空間チャンネルクロストランスフォーマーブロック(SCTB)を長距離スキップ接続に追加することで、全レベルの意味的特徴の融合を実現する。
SCTBには2つの主要な要素がある:
a. 空間埋め込み単一ヘッドチャンネルクロスアテンション(SSCA)は、局所的な空間特徴と全レベルのグローバルチャンネル情報を交換し、エンコーダ間の曖昧さを解消し、画像の高レベルの意味的関連付けを促進する。
b. 補完的フィードフォワードネットワーク(CFN)は、マルチスケールの戦略とクロス空間チャンネル情報の相互作用を通じて特徴の弁別性を高め、エンコーダとデコーダ間の意味的ギャップを橋渡しする。
提案手法は、小型ターゲットと背景の意味的差異をエンコードすることで、内部表現を強化し、正確な検出を実現する。
3つの公開データセット(NUDT-SIRST、NUAA-SIRST、IRSTD-1K)での実験結果は、提案手法がSOTAの手法を上回ることを示している。
Sitater
"IR小型ターゲットは、低信号対雑音比のため、重い雑音や背景クラッタに埋もれやすい。"
"熱画像には色や質感の情報がなく、カメラのピントがぼけると、ターゲットがぼやけてしまう。"
"ターゲットのサイズや形状は、シーンによって大きく変化する。"
提案手法をさらに発展させ、リアルタイムの赤外線小型ターゲット検出を実現する方法はあるか?
提案手法の空間チャンネルクロストランスフォーマーブロックを、他のコンピューービジョンタスクにも応用できるか?
提案手法の性能を向上させるために、どのような新しい特徴抽出手法を導入できるか?