이 논문은 텍스트 기반 동영상 생성을 위한 새로운 접근법을 제안한다. 기존 접근법은 공간과 시간 특징을 독립적으로 모델링하여 시간적 왜곡과 텍스트-동영상 불일치를 초래했다. 이 논문에서는 공간과 시간 특징 간의 상호작용을 강화하는 스왑 어텐션 메커니즘을 제안한다. 이 메커니즘은 공간 및 시간 특징을 상호 보완적으로 활용하여 동영상의 질과 텍스트-동영상 정렬을 향상시킨다.
또한 이 논문은 130M 개의 텍스트-동영상 쌍으로 구성된 대규모 고품질 데이터셋 HD-VG-130M을 제공한다. 이 데이터셋은 고화질, 와이드스크린, 워터마크 없는 동영상으로 구성되어 있다. 이 데이터셋의 하위 집합인 HD-VG-40M은 텍스트, 동작, 미학 측면에서 추가로 정제되어 모델 성능을 더욱 향상시킨다.
실험 결과, 제안된 접근법은 기존 방법에 비해 프레임 품질, 시간적 상관관계, 텍스트-동영상 정렬 측면에서 우수한 성능을 보인다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문