이 논문은 희소 다중 뷰 이미지로부터 효율적이고 정확한 3D 가우시안 스플래팅 모델을 제안한다.
먼저, 다중 뷰 이미지 특징을 추출하기 위해 다중 뷰 트랜스포머 아키텍처를 사용한다. 이를 통해 뷰 간 정보를 교환할 수 있다.
다음으로, 3D 공간상의 비용 볼륨을 구축하여 깊이 추정에 활용한다. 비용 볼륨은 다중 뷰 간 특징 유사도를 저장하며, 이는 3D 표면 위치 추정에 유용한 정보를 제공한다.
이렇게 추정된 깊이 정보를 3D 공간상의 가우시안 중심으로 사용한다. 또한 가우시안의 불투명도, 공분산, 색상 등의 파라미터도 함께 예측한다.
제안 모델 MVSplat은 단순한 렌더링 손실로만 end-to-end 학습된다. 대규모 벤치마크 데이터셋에서 기존 최신 모델 대비 더 높은 성능과 효율성을 보여준다. 특히 비용 볼륨 기반 설계를 통해 정확한 기하학 복원 및 우수한 일반화 성능을 달성한다.
Başka Bir Dile
kaynak içeriğinden
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Yuedong Chen... : arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14627.pdfDaha Derin Sorular