核心概念
단일 카메라 기반 3D 객체 탐지 모델은 대형 객체 탐지에 어려움을 겪지만, 새새새 분할 기반 접근법인 SeaBird가 Dice 손실 함수를 활용하여 이를 효과적으로 해결할 수 있다.
要約
이 논문은 단일 카메라 기반 3D 객체 탐지 모델이 대형 객체 탐지에 어려움을 겪는 문제를 다룬다. 저자들은 이 문제가 단순히 데이터 부족이나 수용 영역 크기 문제가 아니라, 깊이 회귀 손실 함수의 잡음 민감도에 기인한다고 주장한다.
저자들은 회귀 손실 함수와 Dice 손실 함수의 수렴 특성을 수학적으로 분석하여, Dice 손실 함수가 대형 객체에 대해 더 우수한 잡음 강인성과 모델 수렴 성능을 보인다는 것을 증명한다. 이를 바탕으로 저자들은 SeaBird라는 새로운 파이프라인을 제안한다. SeaBird는 새새새 분할 헤드와 3D 객체 탐지 헤드를 순차적으로 구성하며, 새새새 분할 헤드에 Dice 손실 함수를 적용한다. 이를 통해 대형 객체에 대한 3D 객체 탐지 성능을 크게 향상시킬 수 있다.
실험 결과, SeaBird는 KITTI-360 벤치마크에서 기존 최신 모델들을 크게 능가하며, nuScenes 벤치마크에서도 기존 최신 모델들의 성능을 개선한다. 특히 대형 객체 탐지 성능이 크게 향상되었다.
統計
대형 객체(트레일러, 버스, 트럭)의 깊이 예측 오차가 클수록 회귀 손실 함수의 수렴 분산이 증가하지만, Dice 손실 함수의 수렴 분산은 상대적으로 작다.
대형 객체의 길이가 길수록 Dice 손실 함수의 수렴 분산이 더 작아진다.
引用
"Mono3D networks commonly employ regression losses, such as L1 or L2 loss, to compare the predicted depth with ground truth (GT) depth [43, 116]. In contrast, BEV segmentation utilizes dice loss [83] or cross-entropy loss [30] at each BEV location, comparing it with GT."
"Beyond noise deviation threshold σc = max(σm, √2/ℓErf−1(ℓ2)), the convergence gap between dice and regression losses widens as the object size ℓ increases."