Core Concepts
단일 카메라 기반 3D 의미 점유 예측을 위해 효율적이고 정확한 희소 잠재 표현 기법을 제안한다.
Abstract
이 논문은 단일 카메라 기반 3D 의미 점유 예측을 위한 새로운 접근법인 SparseOcc를 제안한다. 기존 방식들은 밀집 잠재 표현을 사용하여 큐빅 시간 및 공간 복잡도 문제가 있었다. 이를 해결하기 위해 SparseOcc는 다음과 같은 3가지 핵심 혁신을 도입한다:
3D 희소 확산기: 공간적으로 분해된 3D 희소 합성곱 커널을 사용하여 잠재 공간을 완성한다.
희소 특징 피라미드: 다중 스케일 정보를 활용하여 수용 영역을 확장하고 효율성을 높인다.
희소 변환기 헤드: 점유된 voxel만을 고려하여 계산 비용을 크게 줄인다.
이를 통해 SparseOcc는 기존 방식 대비 74.9%의 FLOPs 감소와 함께 14.1%의 mIoU 성능 향상을 달성했다. 이는 희소 표현의 장점을 잘 활용한 결과이다.
Stats
약 67%의 3D 공간이 비어있다.
희소 표현을 사용하면 FLOPs를 74.9% 감소시킬 수 있다.
희소 표현을 사용하면 mIoU 성능을 14.1%까지 향상시킬 수 있다.
Quotes
"Vision-based perception for autonomous driving requires an explicit modeling of a 3D space, where 2D latent representations are mapped and subsequent 3D operators are applied."
"Existing approaches compress the dense representation using projections like Bird's Eye View (BEV) or Tri-Perspective View (TPV). Although efficient, these projections result in information loss, especially for tasks like semantic occupancy prediction."
"Interestingly, it also improves accuracy, from 12.8% to 14.1% mIOU, which in part can be attributed to the sparse representation's ability to avoid hallucinations on empty voxels."