核心概念
단일 RGB-D 이미지에서 학습 중 보지 않은 다양한 물체의 완전한 3D 형상을 빠르고 정확하게 예측하는 방법을 제안한다.
摘要
이 논문은 단일 RGB-D 이미지에서 다중 물체의 완전한 3D 형상을 빠르고 정확하게 복원하는 방법을 제안한다. 기존 연구들은 단일 물체 3D 형상 완성에 초점을 맞추었지만, 복잡한 실세계 다중 물체 장면에서의 고품질 복원은 여전히 과제로 남아있다.
이를 해결하기 위해 저자들은 Octree U-Net과 잠재 공간 3D MAE를 결합한 OctMAE 아키텍처를 제안한다. Octree U-Net은 지역적 기하학적 추론을, 3D MAE는 전역적 기하학적 추론을 수행하여 고품질이면서도 실시간에 가까운 다중 물체 형상 완성을 달성한다.
또한 저자들은 Objaverse 데이터셋의 12,000개 3D 물체 모델을 활용하여 대규모이면서도 다양한 합성 데이터셋을 구축하였다. 실험 결과, 제안 방법은 합성 및 실제 데이터셋 모두에서 최신 기술을 능가하는 성능을 보였으며, 제로샷 일반화 능력도 우수한 것으로 나타났다.
统计
제안 방법은 합성 데이터셋에서 Chamfer 거리 6.71 mm, F1-Score@10mm 0.831, 법선 일치도 0.840을 달성했다.
YCB-Video 데이터셋에서 Chamfer 거리 6.34 mm, F1-Score@10mm 0.797, 법선 일치도 0.773을 달성했다.
HomebrewedDB 데이터셋에서 Chamfer 거리 6.18 mm, F1-Score@10mm 0.819, 법선 일치도 0.760을 달성했다.
HOPE 데이터셋에서 Chamfer 거리 6.40 mm, F1-Score@10mm 0.799, 법선 일치도 0.737을 달성했다.
引用
"단일 RGB-D 이미지에서 다양한 물체의 완전한 3D 형상을 빠르고 정확하게 복원하는 것은 여전히 과제로 남아있다."
"Octree U-Net은 지역적 기하학적 추론을, 3D MAE는 전역적 기하학적 추론을 수행하여 고품질이면서도 실시간에 가까운 다중 물체 형상 완성을 달성한다."
"제안 방법은 합성 및 실제 데이터셋 모두에서 최신 기술을 능가하는 성능을 보였으며, 제로샷 일반화 능력도 우수한 것으로 나타났다."