Core Concepts
실내 환경에서 시각적 장소 인식(VPR)을 위한 대규모 1년 간의 데이터셋 NYC-Indoor-VPR을 제안하고, 이를 위한 반자동 주석 처리 방법을 소개한다. 이 데이터셋은 다양한 실내 장면에서 수집된 36,000개 이상의 이미지로 구성되며, 조명 변화와 외관 변화가 포함되어 있다. 제안된 주석 처리 방법은 비디오 쌍을 입력으로 받아 상대적 위치가 추정된 이미지 쌍을 생성한다. 이를 통해 실내 VPR 연구를 위한 벤치마크를 제공한다.
Abstract
본 논문은 실내 환경에서의 시각적 장소 인식(VPR)을 위한 대규모 데이터셋 NYC-Indoor-VPR과 이를 위한 반자동 주석 처리 방법을 제안한다.
데이터셋 구성:
뉴욕시의 13개 다양한 실내 장면(건물, 층, 장소)에서 수집된 36,107개의 이미지
1년 동안 수집된 데이터로, 조명 변화와 외관 변화가 포함됨
보행자 익명화를 위해 MSeg 기반 처리 적용
주석 처리 방법:
비디오 쌍을 입력으로 받아 Visual SLAM을 통해 키프레임과 토포메트릭 위치 추정
회전 변화가 큰 지점(turning point)을 자동으로 탐지하고, 사람이 수동으로 보정
보정된 turning point 쌍을 이용해 비디오 쌍의 궤적을 정렬하고, 균일한 간격으로 프레임 쌍 추출
추출된 프레임 쌍에 토포메트릭 좌표를 부여하여 VPR 벤치마크를 위한 ground truth 생성
벤치마크 실험:
최신 VPR 알고리즘(ResNet+NetVLAD, CCT+NetVLAD, MixVPR, CosPlace, AnyLoc, R2 Former)을 NYC-Indoor-VPR 데이터셋에 적용
실험 결과, 데이터셋의 특성(crowded area, 360도 이미지, 외관 변화)으로 인해 기존 알고리즘의 성능이 저하됨
특히 Fulton 지하철역과 Oculus 장면에서 낮은 성능을 보여, 실내 VPR의 주요 과제인 지각적 혼동과 시야 차단 문제를 잘 반영함
Stats
실내 환경에서는 GPS 좌표로는 위치를 구분하기 어려워 토포메트릭 좌표를 사용해야 한다.
보행자 익명화를 통해 개인정보 보호와 더불어 VPR 알고리즘의 성능 향상을 도모할 수 있다.
1년 동안의 데이터 수집을 통해 실내 환경의 다양한 외관 변화를 반영할 수 있다.
Quotes
"실내 VPR은 지각적 혼동과 시야 차단 등의 고유한 과제에 직면한다."
"기존 데이터셋과 달리 NYC-Indoor-VPR은 혼잡한 장소의 이미지와 1년 간의 외관 변화를 포함한다."
"제안된 반자동 주석 처리 방법은 비디오 쌍으로부터 정확한 토포메트릭 좌표를 생성할 수 있다."