이 논문은 장기 동영상 생성에 대한 최근 연구 동향을 종합적으로 살펴본다.
먼저 동영상 생성 모델의 4가지 유형(확산 모델, 공간 자기회귀 모델, GAN, 마스크 모델링)과 동영상 생성을 위한 다양한 제어 신호(텍스트, 이미지, 동영상)에 대해 설명한다.
이어서 장기 동영상 생성을 위한 두 가지 주요 패러다임인 분할 및 정복, 시간 자기회귀에 대해 자세히 다룬다. 분할 및 정복 패러다임은 키프레임 생성과 중간 프레임 생성을 구분하여 접근하고, 시간 자기회귀 패러다임은 이전 프레임 정보를 활용하여 순차적으로 동영상 클립을 생성한다.
또한 사진 수준의 장기 동영상 생성을 위한 노력, 즉 시간-공간 일관성, 내용 연속성, 다양성 향상 기법들을 소개한다. 마지막으로 계산 자원, 메모리, 데이터 자원 관련 과제와 향후 연구 방향을 제시한다.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Chengxuan Li... klokken arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16407.pdfDypere Spørsmål