Core Concepts
경계 조건(시작 및 종료 프레임)을 활용하여 사전 학습된 이미지-동영상 모델의 일반화 능력을 극대화하여 다양한 동작, 카메라 움직임, 반복 동영상을 생성할 수 있다.
Abstract
이 논문은 사전 학습된 이미지-동영상 모델의 일반화 능력을 활용하여 경계 조건(시작 및 종료 프레임)에 따라 동영상을 생성하는 방법을 제안한다.
동적 경계 조건: 움직이는 피사체가 포함된 두 프레임을 입력으로 받아 자연스러운 동작을 생성한다.
뷰 경계 조건: 동일한 정적 장면을 다른 각도에서 촬영한 두 프레임을 입력으로 받아 카메라 움직임을 생성한다.
동일 경계 조건: 동일한 프레임을 시작과 끝 프레임으로 사용하여 반복 동영상을 생성한다.
제안하는 Time Reversal Fusion 기법은 사전 학습된 모델의 일반화 능력을 활용하면서도 경계 조건을 만족하는 동영상을 생성할 수 있다. 이를 위해 시작 프레임 기반 순방향 생성 경로와 종료 프레임 기반 역방향 생성 경로를 융합하는 전략을 사용한다. 또한 노이즈 재주입을 통해 생성 과정의 안정성을 높인다.
실험 결과, 제안 기법은 기존 방법들에 비해 우수한 성능을 보였으며, 다양한 동작, 카메라 움직임, 반복 동영상을 생성할 수 있음을 확인하였다. 이를 통해 사전 학습된 이미지-동영상 모델의 내부 동역학을 이해하는 데 활용할 수 있다.
Stats
제안 기법은 기존 프레임 보간 기법 대비 30% 향상된 FVD 점수를 보였다.
제안 기법은 기존 뷰 합성 기법 대비 60% 향상된 FID 점수를 보였다.
제안 기법은 기존 반복 동영상 생성 기법 대비 50% 향상된 FVD 점수를 보였다.
Quotes
"우리는 경계 생성이라는 일반화된 과제를 제안하여 주어진 시작 및 종료 프레임을 기반으로 임의의 맥락에서 동영상을 합성할 수 있다."
"우리가 제안하는 Time Reversal Fusion은 사전 학습된 모델의 일반화 능력을 활용하면서도 경계 조건을 만족하는 동영상을 생성할 수 있다."
"우리는 경계 생성 과제에 대한 다양한 평가 데이터셋을 구축하고, 기존 최신 방법들과 비교 평가를 수행하였다."