이 논문은 전 세계 어디에서나 이미지의 위치를 결정하는 복잡한 시각적 작업에 대한 새로운 벤치마크 데이터셋인 OpenStreetView-5M을 소개합니다. 기존 데이터셋의 한계를 극복하기 위해 OpenStreetView-5M은 225개국 및 지역을 포괄하는 5.1백만 장의 고품질 거리 뷰 이미지로 구성되어 있습니다. 또한 엄격한 훈련/테스트 분리를 통해 단순한 기억이 아닌 실제 지리적 특징 학습을 평가할 수 있습니다.
이 논문에서는 OpenStreetView-5M을 활용하여 다양한 최신 이미지 인코더, 공간 표현 및 훈련 전략에 대한 광범위한 벤치마크를 수행합니다. 실험 결과, 대규모 ViT 모델, 계층적 분류 및 하이브리드 예측, 미세 조정 및 지역 대비 학습 등이 우수한 성능을 보였습니다. 제안된 최종 모델은 기존 접근법을 크게 능가하며, 사람의 성능도 크게 뛰어넘습니다.
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Guillaume As... о arxiv.org 04-30-2024
https://arxiv.org/pdf/2404.18873.pdfГлибші Запити