사전 학습된 StyleGAN의 깊은 특징을 활용하여 고품질의 1024x1024 해상도 시네마그래프를 자동으로 생성하는 방법을 제안합니다.
언어 모델은 확산 모델보다 이미지와 비디오 생성에서 더 우수한 성능을 보인다. 이를 위해서는 적절한 시각적 토크나이저가 필수적이다.