본 연구는 시각적 위치 추정 문제를 다룬다. 시각적 위치 추정은 주어진 쿼리 이미지의 6자유도 카메라 자세를 알려진 장면 내에서 결정하는 작업이다. 이는 로봇 네비게이션, 가상/증강현실 등 다양한 응용 분야에 중요하다.
기존 연구들은 주로 특징점 매칭(FM) 기반 접근법을 사용해왔다. 이 방법은 3D 포인트 클라우드와 2D 픽셀 수준 키포인트 간의 대응점을 찾아 RANSAC 기반 PnP 알고리즘을 통해 카메라 자세를 추정한다. 최근 FM 기반 방법들은 다양한 벤치마크에서 우수한 성능을 보였지만, 복잡한 조명 조건, 계절 변화, 관점 변화 등의 실제 시나리오에서 여전히 어려움을 겪는다.
이를 해결하기 위해 본 연구는 새로운 구조 기반 프레임워크 DeViLoc을 제안한다. DeViLoc은 정밀한 3D 모델 재구축에 의존하지 않고도 강건한 시각적 위치 추정을 수행할 수 있다. 이를 위해 두 가지 핵심 모듈을 도입한다:
Point Inference Network (PIN): PIN은 관측된 3D 포인트와 2D-2D 매칭 정보를 활용하여 모든 2D 키포인트에 대한 3D 좌표를 예측한다. 이를 통해 관측되지 않은 키포인트에 대한 정보도 활용할 수 있다.
Confidence-based Point Aggregation (CPA): CPA는 다중 쿼리-참조 이미지 쌍으로부터 얻은 2D-3D 대응점을 통합하고 필터링한다. 이를 통해 일관성 있고 신뢰할 수 있는 2D-3D 대응점을 생성한다.
DeViLoc은 이러한 모듈들을 통해 노이즈가 있거나 희소한 3D 입력에서도 정확한 2D-3D 대응점을 생성할 수 있다. 이는 특히 야간, 악천후, 계절 변화 등의 까다로운 환경에서 우수한 성능을 보인다.
To Another Language
from source content
arxiv.org
Djupare frågor