이 논문은 완전히 희소한 3D 공간 점유 예측 네트워크인 SparseOcc를 제안합니다.
첫째, SparseOcc는 희소 3D 볼륨 디코더를 사용하여 입력 이미지에서 3D 기하 정보를 효율적으로 재구성합니다. 이는 계산 비용을 크게 줄일 수 있습니다.
둘째, SparseOcc는 마스크 변환기를 사용하여 희소 3D 공간에서 세그먼트의 마스크와 레이블을 예측합니다. 마스크 기반 희소 샘플링 메커니즘을 통해 희소 교차 주의를 달성합니다.
셋째, 기존 평가 지표인 voxel-level mIoU에는 문제가 있어, 저자들은 ray-level mIoU(RayIoU)라는 새로운 평가 지표를 제안합니다. RayIoU는 깊이와 클래스 예측의 일관성 문제를 해결합니다.
실험 결과, SparseOcc는 Occ3D-nus 벤치마크에서 34.0의 RayIoU를 달성하면서도 17.3 FPS의 실시간 추론 속도를 보여줍니다. 더 많은 이전 프레임을 사용하면 35.1 RayIoU까지 성능이 향상됩니다.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor