Core Concepts
본 연구는 텍스트 기반 동영상 인페인팅을 위한 통합 프레임워크 AVID를 제안한다. AVID는 시간적 일관성을 보장하는 모션 모듈과 다양한 구조적 충실도 요구사항을 충족하는 구조 가이드 모듈을 통합한다. 또한 임의 길이의 동영상을 처리할 수 있는 제로샷 생성 파이프라인을 도입하여 실용적인 응용 분야에 적용할 수 있다.
Abstract
본 연구는 텍스트 기반 동영상 인페인팅을 위한 AVID 모델을 제안한다.
모션 모듈 통합:
기존 텍스트 기반 이미지 인페인팅 모델에 모션 모듈을 통합하여 시간적 일관성을 보장한다.
구조 가이드 모듈:
다양한 인페인팅 유형(객체 교체, 재질 변경, 크롭 확장)에 따른 구조적 충실도 요구사항을 충족하기 위해 구조 가이드 모듈을 도입한다.
제로샷 생성 파이프라인:
임의 길이의 동영상을 처리할 수 있는 제로샷 생성 파이프라인을 제안한다.
중간 프레임 주의 집중 메커니즘을 도입하여 동영상 전체에서 일관된 정체성을 유지한다.
실험 결과, AVID는 다양한 인페인팅 유형과 동영상 길이에 걸쳐 우수한 성능을 보였다. 특히 기존 방법들에 비해 시간적 일관성과 텍스트-동영상 정렬 측면에서 탁월한 결과를 달성했다.
Stats
"A yellow maple leaf." (2.7 s)
"A MINI Cooper driving down a road." (5.3 s)
"A train traveling over a bridge in the mountains." (8.0 s)