Główne pojęcia
온라인 매핑 모델 학습 및 평가 시 데이터셋의 지리적 중복으로 인한 성능 과대 추정 문제를 지적하고, 이를 해결하기 위한 지리적으로 분리된 데이터 분할 방법을 제안한다.
Streszczenie
이 논문은 온라인 매핑 모델 학습 및 평가에 널리 사용되는 nuScenes와 Argoverse 2 데이터셋의 지리적 데이터 누출 문제를 다룬다.
- 데이터셋의 훈련, 검증, 테스트 세트 간 지리적 중복이 심각하여 모델 성능이 과대 추정되는 문제를 지적한다.
- 지리적으로 분리된 데이터 분할 방법(Near Extrapolation, Far Extrapolation)을 제안하여 이 문제를 해결한다.
- 제안된 데이터 분할을 사용하여 기존 최신 모델들을 재평가한 결과, 성능이 크게 하락함을 보여준다.
- 지리적 데이터 분할에 따른 결과 차이를 바탕으로 기존 연구에서 도출된 결론들을 재검토하고, 새로운 통찰을 제공한다.
- 향후 온라인 매핑 연구를 위해 지리적으로 분리된 nuScenes와 Argoverse 2 데이터셋 분할을 제공한다.
Statystyki
약 80%의 nuScenes 검증 및 테스트 샘플이 훈련 샘플로부터 5m 이내에 위치한다.
약 45%의 Argoverse 2 검증 및 테스트 샘플이 훈련 샘플로부터 5m 이내에 위치한다.
제안한 Near Extrapolation 분할에서는 이 비율이 1% 미만으로 낮아진다.
Cytaty
"Naturally, this data leakage causes inflated performance numbers and we propose geographically disjoint data splits to reveal the true performance in unseen environments."
"Experimental results show that methods perform considerably worse, some dropping more than 45 mAP, when trained and evaluated on proper data splits."