제안된 스왑 어텐션 메커니즘은 공간적 및 시간적 특징 간의 상호 강화를 통해 텍스트 기반 동영상 생성의 품질과 정렬을 크게 향상시킨다.
기존 이미지 확산 모델을 동영상 생성에 효과적으로 활용하기 위해, 프레임 간 상관관계를 모델링하는 새로운 노이즈 프라이어를 제안하였다. 이를 통해 이미지 모델의 지식을 효과적으로 전이하여 동영상 생성 성능을 크게 향상시켰다.
StreamingT2V는 일관성 있고 동적인 장기 동영상을 생성하는 고급 자기회귀 기술입니다. 이를 통해 정체되지 않는 풍부한 동작 역학을 가진 장기 동영상을 생성할 수 있습니다.
동적 장면 관리 모듈(Dysen)을 통해 입력 텍스트의 핵심 동작을 추출하고, 이를 동적 장면 그래프(DSG)로 변환하여 세부적인 장면을 생성함으로써, 기존 텍스트 기반 동영상 생성 모델의 한계를 극복하고 고품질의 동영상을 생성할 수 있다.
동적 장면 관리 모듈(Dysen)을 통해 입력 텍스트의 핵심 동작을 추출하고, 이를 동적 장면 그래프(DSG)로 변환하여 세부적인 장면을 생성함으로써, 기존 텍스트 기반 동영상 생성 모델의 한계를 극복하고 고품질의 동영상을 생성한다.