본 연구는 사용자가 독립적으로 카메라 움직임과 객체 움직임을 제어할 수 있는 텍스트 기반 동영상 생성 프레임워크인 Direct-a-Video를 제안한다.
카메라 움직임 제어를 위해 새로운 시간 교차 주의 모듈을 도입하여 수평/수직 이동 및 줌 기능을 정량적으로 제어할 수 있다. 이를 위해 동영상 데이터에 카메라 움직임 증강을 적용하여 자기 지도 학습 방식으로 모듈을 학습한다.
객체 움직임 제어를 위해 사전 학습된 텍스트-동영상 모델의 공간 교차 주의 맵을 활용한다. 사용자는 객체의 시작/끝 프레임 박스와 경로를 지정하면, 이를 통해 객체의 공간-시간적 움직임을 제어할 수 있다.
제안 방법은 카메라 움직임과 객체 움직임을 독립적으로 제어할 수 있어 사용자에게 더 큰 유연성을 제공한다. 실험 결과 제안 방법이 기존 방법 대비 동영상 품질과 움직임 제어 능력이 우수함을 보여준다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문