이 논문은 이미지와 LiDAR 데이터를 활용한 대규모 장소 인식 문제를 다룬다. 최근 연구에서는 단일 모달리티 내에서의 장소 인식 성능이 향상되었지만, 서로 다른 센서 데이터 간 도메인 격차로 인해 교차 모달리티 장소 인식은 여전히 어려운 과제이다.
저자들은 Voxel-Cross-Pixel (VXP)라는 새로운 접근법을 제안한다. VXP는 자기 지도 방식으로 이미지 픽셀과 포인트 클라우드 voxel 간 대응을 설정하고, 이를 통해 공유 특징 공간으로 매핑한다. 이를 위해 VXP는 두 단계의 특징 학습 과정을 거친다.
첫 번째 단계에서는 지역 특징 대응을 명시적으로 활용하여 유사성을 최대화한다. 두 번째 단계에서는 이를 바탕으로 전역 특징 유사성을 최적화한다. 이러한 접근법을 통해 VXP는 지역 세부 정보와 전역 문맥을 모두 효과적으로 학습할 수 있다.
실험 결과, VXP는 Oxford RobotCar, ViViD++, KITTI 벤치마크에서 기존 최신 기법들을 크게 능가하는 성능을 보였다. 또한 단일 모달리티 장소 인식 성능 또한 우수하다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문