핵심 개념
제안된 ECFusion 방법은 BEV 공간에서 발생하는 외재적/내재적 크로스모달 충돌을 명시적으로 제거하여 향상된 멀티모달 BEV 특징을 생성한다.
초록
이 논문은 LiDAR-카메라 3D 객체 탐지 시 발생하는 크로스모달 충돌 문제를 다룬다. 기존 방법들은 모달리티 간 보완성만 고려했지만, 저자들은 충돌로 인한 성능 저하가 심각하다고 지적한다.
저자들은 두 가지 유형의 크로스모달 충돌을 정의한다. 첫째, 외재적 충돌은 BEV 특징 구축 과정에서 발생하는 공간 분포 불일치로 인한 것이다. 둘째, 내재적 충돌은 센서 신호의 비대칭적 감지 능력으로 인한 것이다.
이를 해결하기 위해 저자들은 ECFusion 방법을 제안한다. 먼저 SFA 모듈을 통해 의미 정보 기반 공간 정렬로 외재적 충돌을 제거한다. 그리고 DQR 메커니즘으로 융합 특징에서 사라진 객체 쿼리를 단일 모달 특징에서 복구한다.
실험 결과, ECFusion은 nuScenes 벤치마크에서 최신 성능을 달성했다. 이는 크로스모달 충돌 제거가 LiDAR-카메라 융합 기반 3D 객체 탐지에 매우 중요함을 보여준다.
통계
LiDAR 예측과 카메라 예측 간 공간 분포 불일치로 인한 오탐지 발생
작은 물체에 대한 LiDAR의 낮은 감지 능력으로 인한 누락 발생
인용구
"우리는 BEV 공간에서 발생하는 크로스모달 충돌이 LiDAR-카메라 3D 객체 탐지 성능을 저하시키는 주요 요인이라고 주장한다."
"외재적 충돌은 BEV 특징 구축 과정에서 발생하는 공간 분포 불일치로 인한 것이며, 내재적 충돌은 센서 신호의 비대칭적 감지 능력으로 인한 것이다."