Conceptos Básicos
본 논문에서는 비디오의 높은 정보 중복성을 활용하여 컴팩트한 모션 레이턴트 공간으로 인코딩하는 Reducio-VAE를 제안하고, 이를 기반으로 고해상도 비디오를 빠르게 생성하는 Reducio-DiT 모델을 소개합니다.
Resumen
Reducio: 극도로 압축된 모션 레이턴트를 사용한 빠른 1024x1024 비디오 생성
제목: Reducio! 극도로 압축된 모션 레이턴트를 사용하여 16초 안에 1024x1024 비디오 생성
저자: Rui Tian, Qi Dai, Jianmin Bao, Kai Qiu, Yifan Yang, Chong Luo, Zuxuan Wu, Yu-Gang Jiang
기관: Fudan University, Microsoft Research
본 논문에서는 고품질 비디오 생성을 위한 Latent Diffusion Model (LDM)의 훈련 및 추론 속도를 향상시키는 것을 목표로 합니다. 특히, 기존 모델에서 사용되는 레이턴트 공간의 크기를 줄여 계산 비용을 절감하는 데 중점을 둡니다.