본 연구는 기존 LiDAR 기반 3D 객체 탐지 시스템의 한계를 극복하고자 합니다. 제한된 클래스 어휘와 새로운 객체 클래스에 대한 주석 작업의 높은 비용이 문제였습니다. 도시 환경에서의 개방형 어휘 학습을 통해 사전 훈련된 비전-언어 모델과 다중 센서 데이터를 활용하여 새로운 인스턴스를 포착하고자 합니다.
본 연구는 LiDAR 기반 3D 객체 탐지 시스템의 제한된 클래스 어휘와 새로운 객체 클래스에 대한 주석 작업의 높은 비용 문제를 해결하기 위해 개방형 어휘 학습을 탐구합니다. 제안하는 Find n' Propagate 접근법은 새로운 객체의 탐지율을 최대화하고 이를 원격 지역으로 점진적으로 전파하여 더 많은 객체를 포착하는 것을 목표로 합니다.
OV-Uni3DETR은 다양한 데이터를 활용하여 개방형 어휘 3D 객체 탐지를 수행하며, 모달리티와 장면을 통합하는 단일 모델 아키텍처를 제공한다.