현재 최신 AI 기술인 생성형 인공지능(Generative AI)과 대규모 언어 모델(LLM)이 비디오 기술 분야, 즉 비디오 생성, 이해 및 스트리밍을 어떻게 재편하고 있는지 조명한다.
추가 잠재 노이즈 교란을 통한 적대적 훈련으로 비디오 프레임 간 일관성을 향상시킬 수 있다.
Matten은 최소한의 계산 비용으로 공간-시간 주의 메커니즘을 활용하여 비디오 콘텐츠를 효율적으로 모델링할 수 있는 최신 잠재 확산 모델이다.
본 연구는 이미지 확산 모델과 비디오 확산 모델을 결합하여 고품질이면서도 시간적으로 일관된 비디오를 생성하는 새로운 접근법을 제안한다.