核心概念
이 연구에서는 카메라 전용 버드아이 뷰 3D 객체 탐지를 위해 높이를 명시적으로 모델링하는 방법을 제안한다. 이를 통해 추가 데이터 없이도 높이 정보를 효과적으로 활용할 수 있다.
要約
이 연구는 버드아이 뷰(BEV) 기반 3D 객체 탐지 문제를 다룬다. BEV 표현은 다중 카메라 정보를 3D 공간으로 매핑하는 것이 핵심 과제이다. 기존 연구는 주로 이미지 공간에서의 깊이 모델링 또는 BEV 공간에서의 높이 모델링을 암묵적으로 다루었다.
이 연구에서는 BEV 공간에서 높이를 명시적으로 모델링하는 방법을 제안한다. 이론적으로 높이 기반 방법과 깊이 기반 방법이 동등함을 증명하고, 높이 모델링의 장점을 활용한다. 구체적으로:
- 높이를 자기 재귀적으로 예측하는 모듈을 제안하여 높이와 불확실성을 모델링한다.
- 세그멘테이션 기반 쿼리 마스크를 도입하여 배경 정보를 효과적으로 제거한다.
실험 결과, 제안 방법인 HeightFormer는 기존 카메라 전용 방법 대비 우수한 성능을 보인다. 또한 높이 모델링의 강건성을 입증하고, 다른 BEV 표현 방법에도 플러그인으로 적용할 수 있음을 보인다.
統計
버드아이 뷰 공간에서 객체의 높이 범위는 -5m에서 3m 사이이다.
가까운 거리의 75%의 그리드에서 높이 예측 오차가 0.2m 미만이며, 먼 거리의 75%의 그리드에서 0.5m 미만이다.
引用
"Vision-based Bird's Eye View (BEV) representation is an emerging perception formulation for autonomous driving."
"The core challenge is to construct BEV space with multi-camera features, which is a one-to-many ill-posed problem."
"We propose to explicitly model heights in the BEV space, which needs no extra data like LiDAR and can fit arbitrary camera rigs and types compared to modeling depths."