이 논문은 단일 이미지에서 3D 조작을 가능하게 하는 새로운 이미지 편집 기술을 제안한다. 기존의 3D 인식 이미지 편집 방법은 합성 다중 뷰 데이터셋을 사용하여 특화된 모델을 학습하므로 다양한 레이아웃과 스타일을 가진 일반 도메인 이미지에 대한 효과가 제한적이다.
이에 반해 제안 방법은 텍스트-이미지 쌍을 사용하여 학습된 강력한 이미지 확산 모델을 직접 활용한다. 이를 위해 반복적인 새로운 뷰 합성 및 기하학적 정렬 알고리즘을 개발했다. 이 알고리즘은 확산 모델을 두 가지 목적으로 활용한다. 첫째, 추정된 깊이 맵을 사용하여 선택된 객체의 새로운 뷰를 예측하는 외관 사전 지식을 제공한다. 둘째, 여러 뷰 간 형상 정렬을 통해 기하학적 왜곡을 수정하는 기하학적 비평자 역할을 한다.
제안 방법은 입력 이미지와의 외관 및 형상 일관성이 높은 고품질의 3D 인식 편집 결과를 생성할 수 있으며, 기존 방법들의 한계를 뛰어넘는다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Ruicheng Wan... at arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11503.pdfDeeper Inquiries