toplogo
Увійти

온라인 매핑 데이터셋의 지리적 데이터 누출과 해결 방안


Основні поняття
온라인 매핑 모델 학습 및 평가 시 데이터셋의 지리적 중복으로 인한 성능 과대 추정 문제를 지적하고, 이를 해결하기 위한 지리적으로 분리된 데이터 분할 방법을 제안한다.
Анотація

이 논문은 온라인 매핑 모델 학습 및 평가에 널리 사용되는 nuScenes와 Argoverse 2 데이터셋의 지리적 데이터 누출 문제를 다룬다.

  1. 데이터셋의 훈련, 검증, 테스트 세트 간 지리적 중복이 심각하여 모델 성능이 과대 추정되는 문제를 지적한다.
  2. 지리적으로 분리된 데이터 분할 방법(Near Extrapolation, Far Extrapolation)을 제안하여 이 문제를 해결한다.
  3. 제안된 데이터 분할을 사용하여 기존 최신 모델들을 재평가한 결과, 성능이 크게 하락함을 보여준다.
  4. 지리적 데이터 분할에 따른 결과 차이를 바탕으로 기존 연구에서 도출된 결론들을 재검토하고, 새로운 통찰을 제공한다.
  5. 향후 온라인 매핑 연구를 위해 지리적으로 분리된 nuScenes와 Argoverse 2 데이터셋 분할을 제공한다.
edit_icon

Customize Summary

edit_icon

Rewrite with AI

edit_icon

Generate Citations

translate_icon

Translate Source

visual_icon

Generate MindMap

visit_icon

Visit Source

Статистика
약 80%의 nuScenes 검증 및 테스트 샘플이 훈련 샘플로부터 5m 이내에 위치한다. 약 45%의 Argoverse 2 검증 및 테스트 샘플이 훈련 샘플로부터 5m 이내에 위치한다. 제안한 Near Extrapolation 분할에서는 이 비율이 1% 미만으로 낮아진다.
Цитати
"Naturally, this data leakage causes inflated performance numbers and we propose geographically disjoint data splits to reveal the true performance in unseen environments." "Experimental results show that methods perform considerably worse, some dropping more than 45 mAP, when trained and evaluated on proper data splits."

Ключові висновки, отримані з

by Adam Lilja,J... о arxiv.org 04-08-2024

https://arxiv.org/pdf/2312.06420.pdf
Localization Is All You Evaluate

Глибші Запити

온라인 매핑 모델의 성능 향상을 위해 어떤 새로운 접근 방식을 고려해볼 수 있을까?

이 연구에서 제안된 지리적으로 분리된 데이터 분할은 온라인 매핑 모델의 성능을 정확하게 측정하는 데 중요한 역할을 합니다. 그러나 이 외에도 성능을 향상시키기 위해 고려해볼 수 있는 몇 가지 새로운 접근 방식이 있습니다. 첫째, 데이터 다양성을 높이기 위해 다양한 환경에서 데이터를 수집하고 활용하는 것이 중요합니다. 다양한 도시, 날씨 조건, 조명 조건 등을 포함한 데이터는 모델이 다양한 상황에서도 잘 작동할 수 있도록 도와줍니다. 둘째, 실제 도로 환경에서의 데이터 수집과 모의 주행 실험을 통해 모델을 훈련시키는 것이 중요합니다. 이를 통해 모델이 실제 환경에서 어떻게 작동하는지 더 잘 이해하고 개선할 수 있습니다. 또한, 실제 도로 환경에서의 데이터를 사용하면 모델이 현실적인 상황에 대응하는 능력을 향상시킬 수 있습니다.
0
star