이 논문은 자율주행 분야에서 효과적인 특징 학습의 중요성을 강조한다. 기존의 3D 자기 지도 사전 학습 방법은 2D 이미지에 대해 설계된 아이디어를 따르고 있지만, 이는 3D 포인트 클라우드 데이터의 고유한 희소성과 불규칙성으로 인해 어려움이 있다.
UniPAD는 3D 체적 차등 가능 렌더링을 활용하여 새로운 자기 지도 학습 패러다임을 제안한다. 구체적으로 UniPAD는 마스크된 포인트 클라우드를 입력으로 받아 3D 인코더를 통해 계층적 특징을 추출한다. 이 3D 특징은 체적화를 통해 체적 공간으로 변환되며, 차등 가능한 체적 렌더링 방법을 사용하여 완전한 기하학적 표현을 재구성한다. 이 접근 방식은 2D 및 3D 프레임워크에 seamless하게 통합될 수 있어 장면에 대한 더 포괄적인 이해를 가능하게 한다.
UniPAD는 nuScenes 데이터셋에서 광범위한 실험을 통해 그 실현 가능성과 효과성을 입증한다. UniPAD는 LiDAR, 카메라, LiDAR-카메라 기반 기준선 대비 각각 9.1, 7.7, 6.9 NDS 향상을 달성했다. 특히 UniPAD의 사전 학습 파이프라인은 nuScenes 검증 세트에서 3D 객체 탐지에 대해 73.2 NDS와 3D 의미 분할에 대해 79.4 mIoU를 달성하여 이전 방법들을 능가하는 최신 성과를 보였다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Honghui Yang... في arxiv.org 04-09-2024
https://arxiv.org/pdf/2310.08370.pdfاستفسارات أعمق