AnyV2V는 비디오 편집 프로세스를 두 단계로 구분한다:
첫 번째 단계에서 AnyV2V는 InstructPix2Pix, NST, AnyDoor, InstantID 등 다양한 이미지 편집 모델을 활용할 수 있다. 이를 통해 텍스트 프롬프트 기반 편집, 참조 이미지 기반 스타일 전이, 주체 기반 편집, 정체성 조작 등 다양한 비디오 편집 작업을 수행할 수 있다.
두 번째 단계에서는 I2VGen-XL, ConsistI2V, SEINE 등 기존 이미지-비디오 생성 모델을 활용한다. DDIM 역변환을 통해 소스 비디오의 구조를 유지하고, 공간 및 시간 특징 주입을 통해 소스 비디오의 외관과 동작을 일관성 있게 유지한다.
실험 결과, AnyV2V는 기존 최고 성능 모델 대비 프롬프트 정렬 35%, 사용자 선호도 25% 향상을 보였다. 또한 참조 이미지 기반 스타일 전이, 주체 기반 편집, 정체성 조작 등 새로운 작업에서도 높은 성능을 달성했다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問