Core Concepts
OpenStreetView-5M은 전 세계 225개국 및 지역을 포괄하는 5.1백만 장의 지리 참조 거리 뷰 이미지로 구성된 대규모 오픈 액세스 데이터셋입니다. 이를 통해 지리 위치 추정을 위한 강력한 지리적 특징 학습이 가능합니다.
Abstract
이 논문은 전 세계 어디에서나 이미지의 위치를 결정하는 복잡한 시각적 작업에 대한 새로운 벤치마크 데이터셋인 OpenStreetView-5M을 소개합니다. 기존 데이터셋의 한계를 극복하기 위해 OpenStreetView-5M은 225개국 및 지역을 포괄하는 5.1백만 장의 고품질 거리 뷰 이미지로 구성되어 있습니다. 또한 엄격한 훈련/테스트 분리를 통해 단순한 기억이 아닌 실제 지리적 특징 학습을 평가할 수 있습니다.
이 논문에서는 OpenStreetView-5M을 활용하여 다양한 최신 이미지 인코더, 공간 표현 및 훈련 전략에 대한 광범위한 벤치마크를 수행합니다. 실험 결과, 대규모 ViT 모델, 계층적 분류 및 하이브리드 예측, 미세 조정 및 지역 대비 학습 등이 우수한 성능을 보였습니다. 제안된 최종 모델은 기존 접근법을 크게 능가하며, 사람의 성능도 크게 뛰어넘습니다.
Stats
이미지 위치 예측 오차의 평균은 1814km입니다.
예측 오차가 250km 이내인 경우가 전체의 50% 이상입니다.
예측 정확도는 국가 68.0%, 지역 39.4%, 지역 10.3%, 도시 5.9%입니다.
Quotes
"전 세계 어디에서나 이미지의 위치를 결정하는 것은 복잡한 시각적 작업이며, 이는 컴퓨터 비전 알고리즘을 평가하는 데 특히 관련이 있습니다."
"OpenStreetView-5M은 전 세계 225개국 및 지역을 포괄하는 5.1백만 장의 고품질 거리 뷰 이미지로 구성된 대규모 오픈 액세스 데이터셋입니다."
"엄격한 훈련/테스트 분리를 통해 단순한 기억이 아닌 실제 지리적 특징 학습을 평가할 수 있습니다."