본 연구에서는 섹터 모양 확산 모델(S2DM)을 제안한다. S2DM은 동일한 초기 노이즈 지점에서 시작하는 일련의 역확산 프로세스를 통해 섹터 모양의 역확산 영역을 형성한다. 이를 통해 의미 및 확률적 특징은 동일하지만 시간적 특징이 다른 데이터 그룹을 생성할 수 있다.
S2DM을 동영상 생성 작업에 적용하였다. 의미 조건으로 텍스트 설명을, 시간적 조건으로 광학 흐름을 사용하였다. 실험 결과, S2DM은 기존 방법들에 비해 우수한 성능을 보였다. 또한 텍스트 기반 동영상 생성 작업을 위해 두 단계 생성 전략을 제안하였다. 첫 번째 단계에서는 시간적 특징을 생성하고, 두 번째 단계에서는 의미 및 시간적 특징을 활용하여 동영상을 생성한다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Haoran Lang,... at arxiv.org 03-21-2024
https://arxiv.org/pdf/2403.13408.pdfDeeper Inquiries