핵심 개념
본 논문에서는 UAV에서 촬영한 정렬되지 않은 RGB 및 열화상을 사용하여 현저한 객체를 실시간으로 감지하는 효율적인 푸리에 필터링 네트워크인 AlignSal을 제안합니다.
초록
본 논문에서는 무인 항공기(UAV) 기반의 정렬되지 않은 이종 양상의 현저한 객체 감지(BSOD)를 위한 효율적인 푸리에 필터링 네트워크인 AlignSal을 제안합니다. AlignSal은 정확성과 실시간 성능을 모두 달성하기 위해 두 가지 주요 구성 요소를 활용합니다. 첫째, 의미적 대조 정렬 손실(SCAL)은 RGB 및 열 양상을 의미적 수준에서 정렬하여 매개변수 없는 방식으로 상호 개선을 용이하게 합니다. 둘째, 동기화된 정렬 융합(SAF) 모듈은 고속 푸리에 변환을 활용하여 채널 및 공간 차원에서 특징을 정렬하고 이종 양상 융합을 용이하게 합니다.
AlignSal의 주요 강점
- 높은 효율성: AlignSal은 최첨단 BSOD 모델인 MROS에 비해 매개변수 수를 70.0% 줄이고, 부동 소수점 연산을 49.4% 줄이며, 추론 속도를 152.5% 향상시킵니다.
- 정확성: UAV RGB-T 2400 및 세 가지 약하게 정렬된 데이터 세트에 대한 광범위한 실험을 통해 AlignSal은 대부분의 평가 지표에서 16개의 최첨단 BSOD 모델에 비해 실시간 추론 속도와 향상된 성능 및 일반화 가능성을 모두 달성했음을 입증했습니다.
- 일반화 가능성: AlignSal은 UAV 기반의 정렬되지 않은 데이터에서 기존 정렬 BSOD 모델의 성능을 향상시키는 잠재력을 보여주었습니다.
AlignSal의 작동 방식
- 이중 스트림 인코더: 경량 FFT 기반 CDFFormer-18S를 인코더로 사용하여 4가지 수준의 RGB 특징 {f r i }4 i=1 및 열 특징 {f t i }4 i=1을 추출합니다.
- 의미적 대조 정렬 손실(SCAL): 의미 정보가 풍부한 상위 수준 이종 양상 특징 f r 4 및 f t 4를 SCAL을 통해 정렬하여 일관된 의미 분포를 얻습니다.
- 동기화된 정렬 융합(SAF): 이종 양상 특징을 픽셀 수준에서 정렬하고 모달 간 상호 보완적인 정보를 캡처하기 위해 이종 양상 특징을 쌍으로 해당 SAF에 입력합니다.
- 디코더: SAF {f s i }4 i=1의 출력을 간단한 디코더를 통해 전달하여 점진적으로 업샘플링된 특징 f d i 4 i=1 및 saliency 맵 S를 생성합니다.
결론
AlignSal은 UAV 기반의 정렬되지 않은 BSOD를 위한 효율적이고 효과적인 솔루션을 제공합니다. SCAL 및 SAF와 같은 새로운 구성 요소를 통해 AlignSal은 실시간 성능을 유지하면서 정확한 saliency 맵을 생성하여 다양한 실제 애플리케이션에 적합합니다.
통계
AlignSal은 최첨단 BSOD 모델인 MROS에 비해 매개변수 수를 70.0% 줄이고, 부동 소수점 연산을 49.4% 줄이며, 추론 속도를 152.5% 향상시킵니다.
AlignSal은 UAV RGB-T 2400 데이터 세트에서 Sm, wFβ, M 지표에서 MROS보다 각각 1.4%, 1.1%, 1.6% 향상된 성능을 보였습니다.
AlignSal은 최고 성능의 정렬 BSOD 모델인 LAFB보다 Em, Sm, wFβ, Fβ, M 지표에서 각각 0.2%, 0.5%, 1.5%, 1.4%, 8.8% 향상된 성능을 보였습니다.
AlignSal은 다양한 챌린지 상황에서 MROS보다 평균적으로 Sm 1.7%, wFβ 1.9%, M 4.4% 더 높은 성능을 기록했습니다.