이 논문은 단일 이미지 기반 새로운 시점 합성(NVS) 문제를 다룬다. 최근 확산 모델 기반 NVS 방법들은 뛰어난 성능을 보이지만, 생성된 새로운 시점과 실제 시점 간의 일관성이 부족한 문제가 있다. 이는 확산 모델 학습 과정에서 각 노이즈 단계별로 독립적으로 학습하기 때문이다.
이를 해결하기 위해 저자들은 폐루프 전사(closed-loop transcription) 기반의 Ctrl123 모델을 제안한다. Ctrl123은 생성된 새로운 시점의 특징을 실제 시점의 특징과 비교하여 정렬을 향상시킨다. 이를 통해 기존 방법들에 비해 더 일관된 새로운 시점을 생성할 수 있다.
저자들은 다양한 실험을 통해 Ctrl123이 기존 SOTA 방법들에 비해 새로운 시점의 자세 및 외관 일관성을 크게 향상시킴을 보였다. 또한 이를 바탕으로 3D 재구성 성능도 크게 개선되었다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Hongxiang Zh... alle arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.10953.pdfDomande più approfondite