핵심 개념
DistillNeRF는 제한된 2D 이미지 입력에서 풍부한 3D 장면 표현을 예측하기 위해 오프라인 NeRF 및 시각적 기반 모델에서 지식을 추출하는 자기 지도 학습 프레임워크입니다.
초록
DistillNeRF: 단일 이미지에서 신경망 필드와 기반 모델 특징을 추출하여 3D 장면을 인식
본 연구 논문에서는 제한된 수의 2D 이미지만으로 복잡한 3D 환경을 이해하는 데 어려움을 겪는 자율 주행 시스템의 한계를 극복하고자 합니다. 특히, 실시간 처리 요구 사항을 충족하면서 단일 시점의 다중 뷰 이미지에서 풍부한 의미 정보를 담은 3D 장면 표현을 생성하는 효율적인 자기 지도 학습 프레임워크인 DistillNeRF를 제안합니다.
DistillNeRF는 두 단계로 구성됩니다. 첫 번째 단계에서는 각 장면의 주행 로그에서 얻은 모든 다중 뷰, 다중 시점 정보를 활용하여 각 장면에 대해 개별적으로 NeRF(Neural Radiance Fields)를 훈련합니다. 두 번째 단계에서는 단일 시점에서 캡처한 다중 카메라 2D 이미지를 3D 연속 특징 필드로 직접 변환하는 일반화 가능한 인코더를 훈련합니다. 이때, 사전 훈련된 NeRF에서 생성된 고밀도 깊이 및 가상 카메라 뷰와 CLIP 또는 DINOv2와 같은 2D 기반 모델에서 추출한 특징을 사용하여 자기 지도 학습을 수행합니다.
DistillNeRF는 희소 계층적 복셀 표현, 2단계 Lift-Splat-Shoot 인코더, 매개변수화된 신경망 필드와 같은 새로운 모델 아키텍처를 사용하여 제한된 입력에서 풍부한 3D 장면 표현을 학습합니다.