이 논문은 자율 주행을 위한 강건하고 신뢰할 수 있는 다중 모달 3D 객체 탐지 시스템을 제안한다. 기존의 다중 모달 3D 객체 탐지 방법들은 깨끗한 벤치마크 데이터셋에서는 최신 성능을 달성하지만, 실제 환경의 복잡성과 열악한 조건을 간과한다.
이를 해결하기 위해 저자들은 RoboFusion이라는 강건한 프레임워크를 제안한다. RoboFusion은 시각적 기반 모델(VFM) 중 하나인 SAM을 활용하여 분포 외 잡음 시나리오를 해결한다.
구체적으로, 저자들은 SAM을 자율 주행 시나리오에 맞게 적응시킨 SAM-AD를 제안한다. 또한 AD-FPN을 도입하여 SAM의 이미지 특징을 다중 모달 방법과 정렬시킨다. 웨이블릿 분해를 통해 깊이 정보 기반 이미지를 디노이징하고, 자기 주의 메커니즘을 사용하여 융합된 특징을 적응적으로 재가중한다.
실험 결과, RoboFusion은 KITTI-C와 nuScenes-C 벤치마크에서 최신 성능을 달성하며, 다양한 잡음 환경에서 강건성을 보여준다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Ziying Song,... at arxiv.org 04-18-2024
https://arxiv.org/pdf/2401.03907.pdfDeeper Inquiries