이 논문은 BIVDiff라는 일반 목적의 비디오 합성 프레임워크를 제안한다. BIVDiff는 특정 이미지 확산 모델(예: ControlNet, Instruct Pix2Pix)과 일반 텍스트-비디오 확산 모델(예: VidRD, ZeroScope)을 연결하여 학습 없이 다양한 비디오 합성 작업을 수행할 수 있다.
구체적으로 다음과 같은 과정을 거친다:
이를 통해 다양한 비디오 합성 작업(제어 가능한 비디오 생성, 비디오 편집, 비디오 인페인팅 및 아웃페인팅 등)을 학습 없이 수행할 수 있다. 실험 결과 BIVDiff는 기존 방법들에 비해 우수한 성능을 보였다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Fengyuan Shi... at arxiv.org 04-10-2024
https://arxiv.org/pdf/2312.02813.pdfDeeper Inquiries