본 논문에서는 비디오의 높은 정보 중복성을 활용하여 컴팩트한 모션 레이턴트 공간으로 인코딩하는 Reducio-VAE를 제안하고, 이를 기반으로 고해상도 비디오를 빠르게 생성하는 Reducio-DiT 모델을 소개합니다.
Genex는 상상력으로 환경을 탐험하고 이를 통해 더 나은 의사 결정을 내릴 수 있도록 돕는 비디오 생성 모델입니다.
본 논문에서는 잠재적 물리 현상 지식을 비디오 확산 모델에 통합하여 보다 사실적이고 물리 법칙에 부합하는 비디오 생성을 가능하게 하는 새로운 방법을 제안합니다.
OnlyFlow는 보조 비디오에서 추출한 광학 흐름을 활용하여 텍스트 프롬프트와 입력 비디오의 모션을 모두 따르는 사실적인 비디오를 생성하는 새로운 모션 기반 비디오 생성 모델입니다.
LEO는 인간 비디오 합성에서 시공간적 일관성을 중시하는 새로운 프레임워크로, 움직임을 플로우 맵 시퀀스로 나타내어 외형과 분리하고, 잠재 움직임 확산 모델(LMDM)을 통해 장기적인 일관성을 유지하며 고품질 비디오를 생성합니다.
본 논문에서는 적은 양의 데이터만으로도 스타일을 유지하면서 원본 비디오를 다른 도메인의 비디오로 변환하는 비지도 학습 기반 비디오-비디오 생성 모델인 RL-V2V-GAN을 제안합니다.
MarDini는 마스크형 자기회귀(MAR)와 확산 모델(DM)을 결합하여 고해상도 비디오 생성을 효율적으로 수행하는 새로운 비디오 생성 모델입니다.
본 논문에서는 사전 훈련된 비디오 확산 모델에 적대적 훈련을 활용하여 단일 단계 비디오 생성 모델인 SF-V를 제안합니다. SF-V는 기존 확산 모델의 높은 계산 비용을 줄이면서도 고품질 비디오를 생성할 수 있습니다.
MotionCraft는 사전 훈련된 이미지 생성 모델(Stable Diffusion)과 물리 시뮬레이션에서 얻은 옵티컬 플로우를 활용하여 새로운 콘텐츠를 생성하지 않고도 사실적인 비디오를 생성하는 제로샷 비디오 생성 기술입니다.
DreamVideo-2는 사전 훈련된 텍스트-비디오 생성 모델을 기반으로 단일 이미지와 경계 상자 시퀀스만으로 특정 주제와 모션 궤적을 가진 비디오를 생성하는 제로샷 비디오 사용자 정의 프레임워크입니다.