Core Concepts
본 연구는 LiDAR와 카메라 데이터의 명시적 융합과 암시적 볼륨 렌더링 정규화를 통해 정확하고 상세한 3D 의미 점유 예측을 달성한다.
Abstract
본 연구는 3D 의미 점유 예측을 위한 새로운 다중 모달 프레임워크인 Co-Occ를 제안한다. Co-Occ는 LiDAR와 카메라 데이터의 명시적 융합과 암시적 볼륨 렌더링 정규화를 결합한다.
먼저, 기하학적 및 의미론적 인식 융합(GSFusion) 모듈을 제안하여 LiDAR 특징을 인접 카메라 특징으로 강화한다. 이를 통해 LiDAR의 기하학적 이점과 카메라의 의미론적 이점을 결합한다.
다음으로, 볼륨 렌더링을 활용하여 3D LiDAR 스윕과 2D 이미지 간의 간극을 해소하고 융합된 표현을 향상시킨다. 이를 통해 정확하고 상세한 3D 의미 점유 예측을 달성한다.
실험 결과, Co-Occ는 nuScenes 및 SemanticKITTI 벤치마크에서 최신 기술을 능가하는 성능을 보여준다. 특히 Co-Occ는 기존 방법 대비 2.4% mIoU 향상을 달성했다.
Stats
본 연구는 nuScenes 및 SemanticKITTI 벤치마크에서 평가되었다.
nuScenes 벤치마크에서 Co-Occ는 41.1% IoU와 27.1% mIoU를 달성했다.
SemanticKITTI 벤치마크에서 Co-Occ는 56.6% IoU와 24.4% mIoU를 달성했다.
Quotes
"본 연구는 LiDAR와 카메라 데이터의 명시적 융합과 암시적 볼륨 렌더링 정규화를 결합하여 정확하고 상세한 3D 의미 점유 예측을 달성한다."
"GSFusion 모듈은 LiDAR의 기하학적 이점과 카메라의 의미론적 이점을 결합하여 LiDAR 특징을 강화한다."
"볼륨 렌더링은 3D LiDAR 스윕과 2D 이미지 간의 간극을 해소하고 융합된 표현을 향상시킨다."