이 논문은 전 세계 어디에서나 이미지의 위치를 결정하는 복잡한 시각적 작업에 대한 새로운 벤치마크 데이터셋인 OpenStreetView-5M을 소개합니다. 기존 데이터셋의 한계를 극복하기 위해 OpenStreetView-5M은 225개국 및 지역을 포괄하는 5.1백만 장의 고품질 거리 뷰 이미지로 구성되어 있습니다. 또한 엄격한 훈련/테스트 분리를 통해 단순한 기억이 아닌 실제 지리적 특징 학습을 평가할 수 있습니다.
이 논문에서는 OpenStreetView-5M을 활용하여 다양한 최신 이미지 인코더, 공간 표현 및 훈련 전략에 대한 광범위한 벤치마크를 수행합니다. 실험 결과, 대규모 ViT 모델, 계층적 분류 및 하이브리드 예측, 미세 조정 및 지역 대비 학습 등이 우수한 성능을 보였습니다. 제안된 최종 모델은 기존 접근법을 크게 능가하며, 사람의 성능도 크게 뛰어넘습니다.
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Guillaume As... às arxiv.org 04-30-2024
https://arxiv.org/pdf/2404.18873.pdfPerguntas Mais Profundas