본 연구는 사용자가 독립적으로 카메라 움직임과 객체 움직임을 제어할 수 있는 텍스트 기반 동영상 생성 프레임워크인 Direct-a-Video를 제안한다.
카메라 움직임 제어를 위해 새로운 시간 교차 주의 모듈을 도입하여 수평/수직 이동 및 줌 기능을 정량적으로 제어할 수 있다. 이를 위해 동영상 데이터에 카메라 움직임 증강을 적용하여 자기 지도 학습 방식으로 모듈을 학습한다.
객체 움직임 제어를 위해 사전 학습된 텍스트-동영상 모델의 공간 교차 주의 맵을 활용한다. 사용자는 객체의 시작/끝 프레임 박스와 경로를 지정하면, 이를 통해 객체의 공간-시간적 움직임을 제어할 수 있다.
제안 방법은 카메라 움직임과 객체 움직임을 독립적으로 제어할 수 있어 사용자에게 더 큰 유연성을 제공한다. 실험 결과 제안 방법이 기존 방법 대비 동영상 품질과 움직임 제어 능력이 우수함을 보여준다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Shiyuan Yang... lúc arxiv.org 05-07-2024
https://arxiv.org/pdf/2402.03162.pdfYêu cầu sâu hơn