본 연구는 기존 비디오 편집 기술의 한계를 극복하고자 텍스트 기반 포즈 비디오 편집 기술을 제안한다. 기존 비디오 편집 기술은 속성, 배경, 스타일 등의 변경에 국한되었지만, 제안 기술은 비디오 내 인물의 행동을 자유롭게 편집할 수 있다.
제안 기술은 다음과 같은 과정으로 동작한다. 먼저 대형 언어 모델(LLM)을 활용하여 질문에 대한 답변을 생성한다. 이 답변을 바탕으로 관련 개인을 탐지하고, 포즈 데이터베이스에서 적절한 포즈 비디오를 검색한다. 검색된 포즈 비디오와 원본 비디오의 포즈를 정렬한 후, 텍스트 기반 확산 모델을 활용하여 편집된 비디오를 생성한다.
이를 위해 새로운 평가 데이터셋 "WhatifVideo-1.0"을 제공하며, 다양한 시나리오와 난이도 수준을 포함한다. 실험 결과, 제안 기술이 기존 방법들에 비해 우수한 성능을 보였다.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor