사전 학습된 텍스트-비디오 생성기의 힘을 활용하여 조정 없이 비디오 모션과 외관 편집을 지원하는 UniEdit 프레임워크를 제안합니다.
ExpressEdit은 자연어와 스케치를 활용하여 비디오 편집 요청을 표현하고 구현할 수 있는 다중 모달 시스템입니다. 이를 통해 편집자들은 자신의 편집 의도를 더 효과적으로 전달하고 구현할 수 있습니다.
이 논문은 비디오 편집의 주요 구성 요소인 비디오 효과, 애니메이션, 전환, 필터, 스티커, 텍스트에 대한 보편적인 시각적 표현을 학습하는 것을 목표로 합니다.
VIDEOSHOP은 사용자가 첫 번째 프레임을 편집할 수 있게 하고, 이를 자동으로 나머지 프레임에 전파하여 의미론적, 기하학적, 시간적 일관성을 유지하는 훈련이 필요 없는 비디오 편집 방법입니다.
AnyV2V는 다양한 입력 조건(텍스트 프롬프트, 참조 이미지, 주체 이미지 등)을 활용하여 소스 비디오를 편집할 수 있는 범용 프레임워크이다.
AnyV2V는 다양한 입력 조건(텍스트 프롬프트, 참조 이미지, 주체 이미지 등)을 활용하여 소스 비디오를 편집할 수 있는 범용 프레임워크이다.
AnyV2V는 다양한 입력 조건(텍스트 프롬프트, 피사체 이미지, 스타일 이미지 등)을 활용하여 소스 비디오를 편집할 수 있는 범용 프레임워크이다. AnyV2V는 비디오 편집 과정을 (1) 첫 프레임 이미지 편집과 (2) 이미지-비디오 생성 모델을 활용한 영상 생성의 두 단계로 분리한다.
AnyV2V는 다양한 입력 조건(텍스트 프롬프트, 참조 이미지, 주체 이미지 등)을 활용하여 소스 비디오를 편집할 수 있는 범용 프레임워크이다.
본 연구는 기존 비디오 편집 기술의 한계를 극복하고자 텍스트 기반 포즈 비디오 편집 기술을 제안한다. 이를 통해 비디오 내 인물의 행동을 자유롭게 편집할 수 있으며, 심지어 가정적 질문에 대한 답변을 영상으로 구현할 수 있다.
본 연구는 기존 비디오 편집 기술의 한계를 극복하고자 텍스트 기반 포즈 비디오 편집 방법을 제안한다. 이를 통해 비디오 내 인간 행동을 자유롭게 편집할 수 있으며, 단순한 지시문뿐만 아니라 "만약 ~한다면" 과 같은 가정적 질문에도 대응할 수 있다.