이 논문은 위장 물체 탐지(COD) 문제를 해결하기 위한 새로운 모델인 HGINet을 제안한다.
먼저 RTFA(Region-aware Token Focusing Attention) 모듈을 사용하여 가장 구별되는 토큰을 찾고 관련 없는 토큰을 제거한다. 그 다음 HGIT(Hierarchical Graph Interaction Transformer) 모듈을 통해 계층적 특징 간의 장기 의존성을 모델링하여 시각적 의미를 향상시킨다. 또한 CAFF(Confidence Aggregated Feature Fusion) 디코더를 사용하여 모호한 영역의 세부 정보를 정제한다.
실험 결과, HGINet은 다양한 COD 벤치마크 데이터셋에서 기존 최신 방법들을 크게 능가하는 성능을 보여준다. 특히 작은 물체, 큰 물체, 중첩된 물체, 다중 물체 등 다양한 어려운 시나리오에서 우수한 결과를 보여준다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Siyuan Yao, ... at arxiv.org 09-24-2024
https://arxiv.org/pdf/2408.15020.pdfDeeper Inquiries