Belangrijkste concepten
NeRF-MAE는 신경 방사 장 필드의 방사 및 밀도 그리드를 입력 모달리티로 활용하여 표준 3D Swin Transformer 인코더와 볼륨 디코더를 사용하여 3D 공간의 의미 및 공간 구조를 학습하는 자기 지도 학습 프레임워크이다.
Samenvatting
NeRF-MAE는 신경 방사 장 필드(NeRF)의 방사 및 밀도 그리드를 입력으로 활용하여 자기 지도 학습을 수행하는 프레임워크이다. 이를 위해 다음과 같은 과정을 거친다:
사전 학습된 NeRF 모델에서 방사 및 밀도 정보를 정규 격자 형태로 추출하여 명시적 표현을 생성한다. 이를 통해 NeRF 표현의 도메인 간 일반화와 기존 3D 딥러닝 아키텍처 활용이 가능해진다.
추출된 방사 및 밀도 그리드에서 무작위로 패치를 마스킹하고, 표준 3D Swin Transformer 인코더와 볼륨 디코더를 사용하여 마스킹된 패치를 재구성하도록 학습한다. 이를 통해 3D 공간의 의미 및 구조를 학습할 수 있다.
대규모 데이터셋(1.6M 이미지, 3,500+ 장면)을 활용하여 단일 모델로 사전 학습을 수행한다. 이를 통해 다양한 도메인의 3D 장면에 대한 일반화 능력을 확보한다.
사전 학습된 NeRF-MAE 모델은 3D 객체 탐지, 볼륨 초해상화, 의미 볼륨 레이블링 등 다양한 3D 하위 작업에서 기존 접근법 대비 큰 성능 향상을 보인다. 특히 Front3D 데이터셋에서 21.5% AP50 및 8% AP25 개선을 달성하였으며, 기존 최고 성능 대비 절반 수준의 데이터만으로도 동등한 성능을 달성할 수 있다.
Statistieken
3D 객체 탐지 작업에서 Front3D 데이터셋 기준 AP50이 21.5% 개선되었다.
3D 객체 탐지 작업에서 ScanNet 데이터셋 기준 AP50이 3% 개선되었다.
의미 볼륨 레이블링 작업에서 Front3D 데이터셋 기준 mIOU가 9.6% 개선되었다.
볼륨 초해상화 작업에서 PSNR이 1.02 개선되었다.
Citaten
"NeRF-MAE는 신경 방사 장 필드의 방사 및 밀도 그리드를 입력 모달리티로 활용하여 표준 3D Swin Transformer 인코더와 볼륨 디코더를 사용하여 3D 공간의 의미 및 공간 구조를 학습하는 자기 지도 학습 프레임워크이다."
"NeRF-MAE는 대규모 데이터셋(1.6M 이미지, 3,500+ 장면)을 활용하여 단일 모델로 사전 학습을 수행하여 다양한 도메인의 3D 장면에 대한 일반화 능력을 확보하였다."