Основные понятия
BIVDiff는 특정 이미지 확산 모델과 일반 텍스트-비디오 확산 모델을 연결하여 학습 없이 다양한 비디오 합성 작업을 수행할 수 있는 프레임워크이다.
Аннотация
이 논문은 BIVDiff라는 일반 목적의 비디오 합성 프레임워크를 제안한다. BIVDiff는 특정 이미지 확산 모델(예: ControlNet, Instruct Pix2Pix)과 일반 텍스트-비디오 확산 모델(예: VidRD, ZeroScope)을 연결하여 학습 없이 다양한 비디오 합성 작업을 수행할 수 있다.
구체적으로 다음과 같은 과정을 거친다:
- 이미지 확산 모델을 사용하여 프레임 단위로 비디오를 생성한다.
- 생성된 비디오에 대해 Mixed Inversion을 수행하여 초기 노이즈 잠재 벡터를 얻는다. 이는 이미지 확산 모델과 비디오 확산 모델의 잠재 벡터 분포 차이를 조절하기 위함이다.
- 얻어진 잠재 벡터를 비디오 확산 모델에 입력하여 시간적 일관성을 높인다.
이를 통해 다양한 비디오 합성 작업(제어 가능한 비디오 생성, 비디오 편집, 비디오 인페인팅 및 아웃페인팅 등)을 학습 없이 수행할 수 있다. 실험 결과 BIVDiff는 기존 방법들에 비해 우수한 성능을 보였다.
Статистика
비디오 합성 작업에서 BIVDiff는 기존 방법들에 비해 프레임 간 일관성이 가장 우수하다.
사용자 평가에서도 BIVDiff가 가장 높은 점수를 받았다.
BIVDiff의 추론 속도는 기존 방법들과 유사하다.
Цитаты
"Make him on the road"
"A white swan moving on the lake"