핵심 개념
동적 장면 관리 모듈(Dysen)을 통해 입력 텍스트의 핵심 동작을 추출하고, 이를 동적 장면 그래프(DSG)로 변환하여 세부적인 장면을 생성함으로써, 기존 텍스트 기반 동영상 생성 모델의 한계를 극복하고 고품질의 동영상을 생성할 수 있다.
초록
이 논문은 텍스트 기반 동영상 생성(T2V) 문제에 대한 새로운 접근법을 제안한다. 기존 T2V 모델들은 고해상도 프레임 생성에 초점을 맞추었지만, 동작의 시간적 동기화와 자연스러운 장면 전환 등의 문제를 해결하지 못했다.
저자들은 이러한 한계를 극복하기 위해 동적 장면 관리(Dysen) 모듈을 제안했다. Dysen은 3단계로 구성된다:
- 입력 텍스트에서 핵심 동작을 추출하고 시간 순서대로 정렬
- 정렬된 동작을 동적 장면 그래프(DSG) 표현으로 변환
- DSG 내 장면을 ChatGPT를 활용해 풍부하고 합리적으로 보완
이렇게 생성된 상세한 DSG 표현을 새로운 순환 그래프 Transformer 모듈을 통해 고품질의 시공간 특징으로 인코딩하고, 기존 동영상 생성 모델에 통합하였다.
실험 결과, 제안 모델인 Dysen-VDM이 기존 최신 모델들을 유의미하게 능가하며, 특히 복잡한 동작이 포함된 시나리오에서 강점을 보였다. 정량적 지표뿐만 아니라 사용자 평가에서도 Dysen-VDM의 우수성이 입증되었다.
통계
입력 텍스트에 포함된 동작이 여러 개이며 시간적으로 겹치는 경우, Dysen-VDM이 기존 모델들보다 우수한 성능을 보였다.
입력 텍스트의 길이가 다양한 경우에도 Dysen-VDM이 더 나은 결과를 생성했다.
생성된 동영상의 프레임 수가 다른 경우에도 Dysen-VDM이 우수한 성능을 보였다.
인용구
"Picturing that, whenever we humans create a film from a given instruction, we always first extract the key actions from the instruction into an event playlist with time order. We then enrich the simple events with more possible specific scenes, i.e., with our imagination."
"To realize the human-level temporal dynamics understanding of video, we take advantage of the current most powerful LLM, e.g., OpenAI ChatGPT (GPT3.5/GPT4); we treat ChatGPT as the consultant for action planning and scene imagination in Dysen."