Concepts de base
실세계 환경에서의 단일 뷰 3D 형상 복원을 위해 다양한 객체 외관과 배경을 무작위로 시뮬레이션하여 도메인 불변 기하학적 특징을 학습하는 것이 핵심 아이디어이다.
Résumé
이 논문은 실세계 환경에서의 단일 뷰 3D 형상 복원 문제를 다룬다. 이를 위해 저자들은 ObjectDR이라는 확장 가능한 데이터 합성 프레임워크를 제안한다. ObjectDR은 조건부 생성 모델을 활용하여 3D 객체로부터 다양한 2D 이미지를 합성한다. 이때 객체 외관과 배경을 무작위로 변화시켜 도메인 불변 기하학적 특징을 학습할 수 있도록 한다.
구체적으로 ObjectDR은 다음과 같은 과정을 거친다:
- 3D 객체 렌더링: 다양한 3D 객체 컬렉션(Objaverse-XL, MeshDiffusion, ShapeNet, ABO)에서 3D 객체를 선택하고 이를 다양한 카메라 각도로 렌더링하여 2.5D 스케치(깊이 맵)를 획득한다.
- 객체 외관 무작위화: 조건부 확산 모델(ControlNet)을 활용하여 2.5D 스케치를 공간 조건으로 사용하고 "a [color] [material] [object]"와 같은 텍스트 조건을 통해 객체 외관을 무작위로 변화시킨다. 초기 객체 가이드를 활용하여 공간 구조를 보존한다.
- 배경 무작위화: 조건부 생성 모델을 활용하여 "[scene]"과 같은 텍스트 조건으로 다양한 배경을 합성한다.
- 객체와 배경 통합: 2.5D 스케치로부터 획득한 객체 실루엣 마스크를 활용하여 객체 외관과 배경을 통합한다.
이렇게 합성된 다양한 데이터로 3D 형상 복원 모델을 사전 학습하면, 모델이 도메인 불변 기하학적 특징을 학습할 수 있어 실세계 환경에서 일반화 성능이 향상된다. 또한 무작위 가림 시뮬레이션을 통해 모델의 가림에 대한 강건성도 개선할 수 있다.
저자들은 제안한 ObjectDR과 ObjectDRdis 프레임워크를 활용하여 110.8K 개의 ⟨3D 형상, 2D 이미지⟩ 쌍 데이터를 합성하였다. 이를 활용하여 AtlasNet과 Mesh R-CNN 모델을 사전 학습한 결과, 실세계 벤치마크에서 각각 13.4%, 10.0%의 성능 향상을 달성하였다. 또한 고품질 컴퓨터 그래픽 렌더링 데이터 대비 23.6% 우수한 결과를 보였다.
Stats
실세계 환경에서 단일 뷰 3D 형상 복원은 ⟨3D 형상, 2D 이미지⟩ 쌍 데이터의 부족으로 인해 여전히 큰 도전 과제이다.
제안된 ObjectDR 프레임워크는 110.8K개의 ⟨3D 형상, 2D 이미지⟩ 쌍 데이터를 합성하였다.
ObjectDRdis는 객체 외관과 배경을 별도로 무작위화하여 데이터의 다양성과 정확성을 높였다.
Citations
"실세계 환경에서의 단일 뷰 3D 형상 복원은 여전히 큰 도전 과제이다."
"제안된 ObjectDR 프레임워크는 110.8K개의 ⟨3D 형상, 2D 이미지⟩ 쌍 데이터를 합성하였다."
"ObjectDRdis는 객체 외관과 배경을 별도로 무작위화하여 데이터의 다양성과 정확성을 높였다."