WildFusion은 3D-Aware 이미지 합성을 위한 새로운 접근법을 제안한다. 기존 방법들은 공유된 정준 좌표계를 가정하지만, 이는 in-the-wild 데이터셋에서 어려울 수 있다. 대신 WildFusion은 뷰 공간에서 인스턴스를 모델링한다.
첫 번째 단계에서 WildFusion은 단일 입력 이미지로부터 3D 구조를 캡처하는 압축된 잠재 표현을 학습하는 강력한 오토인코더를 훈련한다. 이때 모노큘러 깊이 정보를 활용하여 3D 표현을 향상시킨다.
두 번째 단계에서는 이 3D-Aware 잠재 공간에서 잠재 확산 모델을 학습한다. 이를 통해 3D-Aware 이미지 합성이 가능해진다.
실험 결과, WildFusion은 기존 3D-Aware GAN 기반 모델들을 능가하는 성능을 보인다. 특히 다양한 클래스와 복잡한 기하학을 가진 데이터셋에서 우수한 성능을 보인다. 또한 WildFusion은 주어진 단일 이미지로부터 효율적으로 새로운 뷰를 합성할 수 있다. 이는 GAN 기반 역투영 방법보다 우수하다. 마지막으로 WildFusion은 3D-Aware 이미지 보간과 재샘플링과 같은 새로운 응용 분야를 탐구할 수 있다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Katja Schwar... a las arxiv.org 04-15-2024
https://arxiv.org/pdf/2311.13570.pdfConsultas más profundas