本研究は、赤外線小型ターゲット検出(IRSTD)の分野において、一般的なセグメンテーションモデルの活用可能性を探っている。
まず、著者らは、人気のあるビジョンファウンデーションモデルであるSegment Anything Model(SAM)とその派生モデルのIRSTDへの適用可能性を調査した。その結果、特にSemantic-SAMが従来のIRSTD手法と同等の性能を発揮することを発見した。
この知見を踏まえ、著者らは効率的な学生モデルを提案する。具体的には、Semantic-SAMをティーチャーモデルとして活用し、知識蒸留を行うことで、小規模なモデルを高性能化する。さらに、密なクエリと疎なクエリを組み合わせた新しいクエリデザインを導入し、エンコーダーとデコーダー間の情報伝達を強化する。
この提案モデルは、4つの主要なIRSTDデータセットにおいて、従来手法や効率化されたSAMモデルを大きく上回る性能を示した。特に、NUDT データセットでは97.0のIoUを達成し、極めて高い検出精度を実現している。
本研究は、一般的なセグメンテーションモデルの力を引き出し、IRSTD分野の新しいベースラインを提示するものである。提案手法は、小規模かつ効率的なモデルを実現しつつ、高精度な検出を可能にしている。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Mingjin Zhan... at arxiv.org 09-10-2024
https://arxiv.org/pdf/2409.04714.pdfDeeper Inquiries