본 논문은 효율적인 비디오 확산 모델인 CMD(Content-Motion latent Diffusion Model)를 제안한다. CMD는 비디오를 콘텐츠 프레임과 저차원 모션 잠재 표현으로 압축하여 표현한다. 콘텐츠 프레임은 사전 학습된 이미지 확산 모델을 미세 조정하여 생성하고, 모션 잠재 표현은 새로운 경량 확산 모델을 통해 생성한다. 이러한 설계를 통해 기존 비디오 확산 모델 대비 계산 및 메모리 효율성이 크게 향상되었다. 예를 들어 CMD는 512x1024 해상도, 16프레임 길이의 비디오를 3.1초 만에 생성할 수 있으며, WebVid-10M 데이터셋에서 FVD 점수 238.3을 달성하여 이전 최고 성능 대비 18.5% 향상된 결과를 보였다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究