핵심 개념
IS-FUSION은 인스턴스 수준과 장면 수준의 다중 모달 정보를 효과적으로 융합하여 향상된 3D 객체 탐지 성능을 달성한다.
초록
이 논문은 다중 모달 3D 객체 탐지를 위한 새로운 융합 프레임워크인 IS-FUSION을 제안한다. IS-FUSION은 기존 접근법과 달리 장면 수준의 융합뿐만 아니라 인스턴스 수준의 융합도 고려한다.
IS-FUSION은 두 가지 핵심 모듈로 구성된다:
- 계층적 장면 융합(HSF) 모듈: 포인트-그리드 및 그리드-영역 변환기를 활용하여 다중 모달 장면 특징을 다양한 수준에서 캡처한다.
- 인스턴스 유도 융합(IGF) 모듈: 주요 인스턴스를 탐지하고, 인스턴스 간 관계를 탐색하며, 각 인스턴스의 다중 모달 문맥을 통합한다. 또한 인스턴스-장면 변환기 주의 메커니즘을 통해 인스턴스 정보를 장면 특징에 전파한다.
이를 통해 IS-FUSION은 인스턴스 수준과 장면 수준의 정보를 효과적으로 융합하여 향상된 3D 객체 탐지 성능을 달성한다. 실험 결과, IS-FUSION은 nuScenes 벤치마크에서 기존 최신 기법들을 능가하는 성과를 보였다.
통계
장면 수준 융합만 고려한 기존 접근법에 비해 IS-FUSION은 4.3% mAP 향상을 달성했다.
IS-FUSION은 최신 다중 모달 3D 객체 탐지 기법들인 CMT, SparseFusion 대비 각각 2.5%, 1.8% mAP 향상을 보였다.
인용구
"IS-FUSION은 기존 접근법과 달리 장면 수준의 융합뿐만 아니라 인스턴스 수준의 융합도 고려한다."
"IS-FUSION은 인스턴스-장면 변환기 주의 메커니즘을 통해 인스턴스 정보를 장면 특징에 전파한다."