본 연구는 가려진 물체의 3D 재구성을 위한 새로운 프레임워크인 O2-Recon을 제안한다. 이 프레임워크는 사전 학습된 2D 확산 모델을 활용하여 입력 비디오 프레임의 가려진 영역을 채워 넣는다. 이렇게 생성된 보완된 2D 이미지를 바탕으로 신경망 내재 표면 표현을 최적화하여 3D 재구성을 수행한다.
가려진 영역의 정확한 마스크 생성이 중요한 과제이므로, 본 연구는 최소한의 사용자 개입으로 고품질 마스크를 생성하는 인간-반복 전략을 도입한다. 사용자는 1-3개의 대표적인 프레임에서 가려진 영역을 스케치하고, 이를 바탕으로 다른 프레임의 마스크를 생성한다.
완전히 가려진 영역의 품질을 높이기 위해, 본 연구는 다중 주파수 대역의 위치 인코딩을 활용하는 계층적 SDF 예측 네트워크와 CLIP 기반의 의미론적 일관성 손실 함수를 제안한다. 이를 통해 가려진 영역의 부드러운 표면과 의미론적 정합성을 달성한다.
실험 결과, O2-Recon은 ScanNet 데이터셋에서 가려진 물체의 재구성 정확도와 완성도 측면에서 최신 기술을 능가하는 성능을 보였다. 또한 완전히 재구성된 물체를 바탕으로 자유로운 조작이 가능하다.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Yubin Hu,She... klokken arxiv.org 03-20-2024
https://arxiv.org/pdf/2308.09591.pdfDypere Spørsmål