본 연구는 훈련 없이 소스 비디오의 카메라 모션을 새로운 비디오에 전송할 수 있는 MotionMaster 모델을 제안한다. 이를 위해 카메라 모션과 객체 모션을 분리하는 방법을 제안하고, 다양한 카메라 모션을 조합하여 유연한 카메라 제어를 가능하게 한다.
최근 비디오 생성 모델의 성능을 다각도로 평가하기 위해 포괄적인 프롬프트 세트와 다양한 평가 지표를 제안한다.
본 연구는 콘텐츠 프레임과 저차원 모션 잠재 표현으로 구성된 효율적인 비디오 확산 모델을 제안한다. 이를 통해 사전 학습된 이미지 확산 모델을 활용하여 비디오 생성 품질을 높이고 계산 및 메모리 효율성을 크게 향상시킬 수 있다.
애니메이트디프-라이트닝은 점진적 적대적 확산 증류를 통해 새로운 최첨단 수준의 적은 단계 비디오 생성을 달성합니다.
AnimateDiff-Lightning은 점진적 적대적 확산 증류를 사용하여 새로운 최첨단 수준의 단계 비디오 생성을 달성합니다.
EchoReel은 기존 비디오 확산 모델의 동작 생성 능력을 향상시키는 혁신적인 방법이다. 이를 통해 모델은 훈련 중에 보지 못한 다양한 동작을 합성할 수 있게 된다.
에코릴은 기존 비디오 확산 모델의 복잡한 액션 생성 능력을 향상시키기 위해 참조 비디오에서 동작 정보를 추출하고 이를 모델에 통합하는 혁신적인 방법론이다.
VideoPoet은 다양한 입력 신호(이미지, 비디오, 텍스트, 오디오)를 활용하여 고품질의 비디오를 합성할 수 있는 대규모 언어 모델이다.
구조화된 상태 공간 모델(SSM)을 비디오 생성 확산 모델의 시간적 레이어에 통합하여 긴 비디오 시퀀스 생성을 위한 메모리 효율성을 높이고 생성 성능을 유지할 수 있다.
구조화된 상태 공간 모델(SSM)을 비디오 확산 모델의 시간적 레이어에 통합하여 긴 비디오 시퀀스 생성 시 메모리 효율성을 높이면서도 경쟁력 있는 생성 성능을 달성할 수 있다.