Core Concepts
이 연구는 입력 이미지를 편집 가능한 이미지 요소로 표현하여 다양한 공간적 편집 작업을 지원하는 방법을 제안한다. 이미지 요소는 입력 이미지를 충실하게 재구성할 수 있으며, 사용자가 직접 편집할 수 있다. 또한 강력한 확산 모델을 활용하여 편집된 이미지 요소를 사실적인 이미지로 생성할 수 있다.
Abstract
이 연구는 이미지 편집을 위한 새로운 접근 방식을 제안한다. 입력 이미지를 의미 있는 이미지 요소로 분할하고, 이를 개별적으로 인코딩한다. 사용자는 이미지 요소의 위치와 크기를 직접 편집할 수 있다. 편집된 이미지 요소는 강력한 확산 모델을 통해 사실적인 이미지로 생성된다.
구체적으로 다음과 같은 과정을 거친다:
입력 이미지를 의미 있는 이미지 요소로 분할한다. 이때 Segment Anything Model을 활용하여 객체 부분을 추출하고, 단순 클러스터링을 통해 크기가 유사한 영역을 그룹화한다.
각 이미지 요소의 외형 정보와 위치/크기 정보를 별도로 인코딩한다. 이를 통해 사용자가 이미지 요소를 직접 편집할 수 있다.
편집된 이미지 요소를 입력으로 하여, 확산 모델 기반의 강력한 디코더를 통해 사실적인 이미지를 생성한다. 이때 텍스트 정보도 함께 활용하여 편집 결과의 현실감을 높인다.
이러한 접근 방식을 통해 다양한 이미지 편집 작업이 가능하다. 객체 크기 조절, 배치 변경, 가려진 부분 복원, 객체 제거, 객체 변형 등의 작업을 수행할 수 있다. 기존 방식에 비해 편집 결과의 충실도와 사실감이 크게 향상되었다.
Stats
입력 이미지를 256개의 이미지 요소로 분할하여 표현한다.
각 이미지 요소는 위치(x, y)와 크기(w, h) 정보를 가진다.
확산 모델 기반 디코더는 50 step의 DDIM 샘플링을 수행한다.