Core Concepts
동적 비디오 데이터를 활용하여 사용자가 제공한 대략적인 편집 내용을 바탕으로 사실적이고 세부적인 사진 편집 결과를 자동으로 생성하는 모델을 제안한다.
Abstract
이 논문은 사진 편집을 자동화하는 새로운 접근법을 제안한다. 사용자가 간단한 2D 변형을 통해 입력 이미지의 부분을 재배치하면, 제안하는 모델이 이를 바탕으로 사실적이고 세부적인 편집 결과를 생성한다.
모델의 핵심 아이디어는 동적 비디오 데이터를 활용하는 것이다. 비디오에서 관찰되는 객체의 움직임, 조명 변화, 물리적 상호작용 등의 정보를 활용하여 사용자의 편집 의도를 충실히 반영하면서도 사실적인 결과를 생성할 수 있다.
구체적으로, 모델은 두 개의 병렬 diffusion 모델로 구성된다. 하나는 사용자 편집을 바탕으로 최종 결과를 생성하고, 다른 하나는 원본 이미지의 세부 정보를 추출하여 이를 전달한다. 이를 통해 사용자 편집을 충실히 반영하면서도 원본 이미지의 정체성과 세부 정보를 유지할 수 있다.
모델 학습 시에는 비디오 프레임 쌍을 활용하여 원본 프레임을 사용자 편집 프레임으로 변환하는 과정을 모방한다. 이를 통해 모델이 사용자 편집을 충실히 따르면서도 사실적인 결과를 생성할 수 있도록 한다.
제안하는 방법은 기존 접근법에 비해 사용자 편집을 더 잘 반영하면서도 사실적인 결과를 생성할 수 있다. 사용자 연구 결과, 제안 모델의 결과가 89%의 경우 선호되었다.
Stats
사용자 편집 입력과 실제 결과 프레임 간의 LPIPS 거리가 0.196으로 가장 낮다.
두 가지 모션 모델(광류 기반, 부분 affine 변환 기반)을 모두 활용한 경우가 가장 좋은 성능을 보인다.
Quotes
"우리의 핵심 통찰은 비디오가 이 작업을 위한 강력한 감독 신호원이라는 것입니다: 객체와 카메라 움직임은 관점, 조명, 물리적 상호작용의 변화에 따른 세계의 변화를 많은 관찰을 제공합니다."
"우리의 모델 설계는 명시적으로 소스 프레임에서 생성된 이미지로의 세부 정보 전송을 가능하게 하면서도 사용자가 지정한 레이아웃을 closely 따르도록 합니다."