Core Concepts
제안된 스왑 어텐션 메커니즘은 공간적 및 시간적 특징 간의 상호 강화를 통해 텍스트 기반 동영상 생성의 품질과 정렬을 크게 향상시킨다.
Abstract
이 논문은 텍스트 기반 동영상 생성을 위한 새로운 접근법을 제안한다. 기존 접근법은 공간과 시간 특징을 독립적으로 모델링하여 시간적 왜곡과 텍스트-동영상 불일치를 초래했다. 이 논문에서는 공간과 시간 특징 간의 상호작용을 강화하는 스왑 어텐션 메커니즘을 제안한다. 이 메커니즘은 공간 및 시간 특징을 상호 보완적으로 활용하여 동영상의 질과 텍스트-동영상 정렬을 향상시킨다.
또한 이 논문은 130M 개의 텍스트-동영상 쌍으로 구성된 대규모 고품질 데이터셋 HD-VG-130M을 제공한다. 이 데이터셋은 고화질, 와이드스크린, 워터마크 없는 동영상으로 구성되어 있다. 이 데이터셋의 하위 집합인 HD-VG-40M은 텍스트, 동작, 미학 측면에서 추가로 정제되어 모델 성능을 더욱 향상시킨다.
실험 결과, 제안된 접근법은 기존 방법에 비해 프레임 품질, 시간적 상관관계, 텍스트-동영상 정렬 측면에서 우수한 성능을 보인다.
Stats
"비디오 클립의 평균 광학 흐름 크기(Oavg)가 0.2보다 작은 경우 충분한 동작이 없는 것으로 간주되어 제거되었다."
"Oavg/Omd 비율이 2 미만이거나 Omd가 6보다 큰 경우 실제 카메라 변환을 나타내는 것으로 간주되어 보존되었다."
"미학 점수가 4 미만인 비디오는 제거되었다."
Quotes
"제안된 스왑 어텐션 메커니즘은 공간적 및 시간적 특징 간의 상호 강화를 통해 텍스트 기반 동영상 생성의 품질과 정렬을 크게 향상시킨다."
"HD-VG-130M 데이터셋은 130M개의 고화질, 와이드스크린, 워터마크 없는 텍스트-동영상 쌍으로 구성되어 있다."
"HD-VG-40M 하위 집합은 텍스트, 동작, 미학 측면에서 추가로 정제되어 모델 성능을 더욱 향상시킨다."