Core Concepts
본 연구는 확산 모델을 활용하여 2D 및 3D 이미지 편집 작업을 통합하는 방법을 제안한다. 이를 위해 이미지 편집 작업을 기하학적 변환으로 간주하고 이를 확산 모델의 주의 집중 메커니즘에 직접 통합한다.
Abstract
본 연구는 실사 이미지 편집을 위한 통합 방법인 GeoDiffuser를 제안한다. 이 방법은 이미지 편집 작업을 기하학적 변환으로 간주하고 이를 확산 모델의 주의 집중 메커니즘에 직접 통합한다. 이를 통해 다양한 2D 및 3D 편집 작업(객체 이동, 3D 회전, 객체 제거 등)을 단일 방법으로 수행할 수 있다.
구체적으로, 입력 이미지와 사용자 입력을 바탕으로 객체 분할 및 깊이 정보를 추출한다. 이를 이용해 기하학적 변환을 계산하고, 이를 확산 모델의 주의 집중 메커니즘에 직접 적용한다. 이를 통해 객체 스타일을 유지하면서도 배경 영역을 자연스럽게 채워넣을 수 있다.
제안 방법은 추가 학습 없이 작동하며, 다양한 확산 모델에 적용할 수 있다. 정량적 평가 및 사용자 연구를 통해 제안 방법이 기존 방법보다 우수한 성능을 보임을 확인하였다.
Stats
입력 이미지와 편집된 이미지 간 관심점 거리 평균은 5.65로 기존 방법 대비 우수하다.
객체 변형 정확도를 나타내는 Warp Error는 0.098로 기존 방법보다 낮다.
전체적인 이미지 맥락 보존 성능을 나타내는 CLIP Similarity 점수는 0.963으로 높다.
Quotes
"우리는 이미지 편집 작업을 기하학적 변환으로 간주하고 이를 확산 모델의 주의 집중 메커니즘에 직접 통합한다."
"제안 방법은 추가 학습 없이 작동하며, 다양한 확산 모델에 적용할 수 있다."