Core Concepts
차별화 가능한 렌더링을 통해 RGB 이미지, 깊이 이미지, 3D 포인트 클라우드 간의 통합 표현을 학습하여 3D 이해 성능을 향상시킨다.
Abstract
이 논문은 3D 이해 작업을 위한 새로운 사전 학습 프레임워크 DR-Point를 제안한다. DR-Point는 RGB 이미지, 깊이 이미지, 3D 포인트 클라우드 간의 통합 표현을 학습하는 것을 목표로 한다.
첫째, Token-level Transformer Auto-encoder 브랜치는 포인트 클라우드를 토큰 수준에서 복원하고 3D 특징을 추출한다. 둘째, Point-level Transformer Auto-encoder 브랜치는 포인트 클라우드를 포인트 수준에서 복원하며, 차별화 가능한 렌더링을 통해 깊이 이미지 특징을 추출한다. 셋째, RGB 이미지 특징은 사전 학습된 ResNet을 통해 추출된다.
이 세 가지 모달리티 간 특징은 대조 학습을 통해 정렬된다. 이를 통해 DR-Point는 3D 이해 작업에서 우수한 성능을 달성한다. 광범위한 실험 결과는 DR-Point가 기존 자기 지도 학습 방법보다 3D 객체 분류, 부분 분할, 포인트 클라우드 완성, 의미 분할 및 탐지 등 다양한 작업에서 우수한 성능을 보여줌을 입증한다.
Stats
3D 포인트 클라우드는 2,048개의 포인트로 구성된다.
렌더링된 RGB 이미지는 224 x 224 크기로 조정된다.
32개의 무작위 뷰에서 깊이 이미지가 생성된다.
Quotes
"DR-Point는 RGB 이미지, 깊이 이미지, 3D 포인트 클라우드 간의 통합 표현을 학습하여 3D 이해 성능을 향상시킨다."
"차별화 가능한 렌더링을 통해 깊이 이미지 특징을 추출하고, 이를 통해 포인트 클라우드 복원 정확도를 높인다."