핵심 개념
동적 장면 관리 모듈(Dysen)을 통해 입력 텍스트의 핵심 동작을 추출하고, 이를 동적 장면 그래프(DSG)로 변환하여 세부적인 장면을 생성함으로써, 기존 텍스트 기반 동영상 생성 모델의 한계를 극복하고 고품질의 동영상을 생성한다.
초록
이 논문은 텍스트 기반 동영상 생성 문제를 다룹니다. 기존의 텍스트 기반 동영상 생성 모델들은 동작의 순서 문제, 거친 동작, 부자연스러운 장면 전환 등의 한계를 가지고 있습니다.
이를 해결하기 위해 저자들은 동적 장면 관리(Dysen) 모듈을 제안합니다. Dysen 모듈은 다음 3단계로 구성됩니다:
- 입력 텍스트에서 핵심 동작을 추출하고 시간 순서대로 정렬
- 정렬된 동작을 동적 장면 그래프(DSG) 표현으로 변환
- DSG의 장면을 충분하고 합리적인 세부 사항으로 보강
이를 위해 저자들은 ChatGPT와 같은 강력한 언어 모델을 활용하여 인간 수준의 시간적 역학 이해를 실현합니다. 최종적으로 보강된 DSG의 세부적인 시공간 특징은 기존 동영상 생성 모델에 통합되어 고품질의 유창한 동영상을 생성합니다.
실험 결과, 제안 모델인 Dysen-VDM은 기존 방법들에 비해 UCF-101, MSR-VTT, ActivityNet 데이터셋에서 모두 우수한 성능을 보였습니다. 특히 복잡한 동작이 포함된 시나리오에서 큰 성능 향상을 보였습니다.
통계
입력 텍스트에 포함된 동작이 여러 개 겹치거나 동시에 발생하는 경우, Dysen-VDM이 기존 모델들에 비해 더 나은 성능을 보였습니다.
입력 텍스트의 길이가 다양한 경우, Dysen-VDM이 기존 모델들에 비해 더 나은 성능을 보였습니다.
생성되는 동영상의 프레임 수가 다양한 경우, Dysen-VDM이 기존 모델들에 비해 더 나은 성능을 보였습니다.
인용구
"Picturing that, whenever we humans create a film from a given instruction, we always first extract the key actions from the instruction into an event playlist with time order. We then enrich the simple events with more possible specific scenes, i.e., with our imagination."
"To realize the human-level temporal dynamics understanding of video, we take advantage of the current most powerful LLM, e.g., OpenAI ChatGPT (GPT3.5/GPT4); we treat ChatGPT as the consultant for action planning and scene imagination in Dysen."