통합 BEV 인코더를 사용하여 카메라와 LiDAR 모달리티 간 정렬된 BEV 특징을 생성하고, 채널 정규화 가중치 기반 융합을 통해 센서 모달리티 누락에 강인한 3D 객체 탐지 모델을 제안한다.
IS-FUSION은 인스턴스 수준과 장면 수준의 다중 모달 정보를 효과적으로 융합하여 향상된 3D 객체 탐지 성능을 달성한다.