核心概念
본 연구는 기존 비디오 편집 기술의 한계를 극복하고자 텍스트 기반 포즈 비디오 편집 방법을 제안한다. 이를 통해 비디오 내 인간 행동을 자유롭게 편집할 수 있으며, 단순한 지시문뿐만 아니라 "만약 ~한다면" 과 같은 가정적 질문에도 대응할 수 있다.
要約
본 논문은 텍스트 기반 포즈 비디오 편집이라는 새로운 개념을 제안한다. 기존 비디오 편집 기술은 속성, 배경, 스타일 등의 변경에 국한되었지만, 제안 방법인 ReimaginedAct는 비디오 내 인간 행동을 자유롭게 편집할 수 있다.
ReimaginedAct는 다음과 같은 과정으로 동작한다.
- 언어 모델을 활용하여 질문에 대한 답변을 생성한다.
- 답변에 해당하는 포즈 비디오를 검색하고 정렬한다.
- 원본 비디오의 개인 포즈와 검색된 포즈를 결합하여 편집한다.
- 시간적 일관성을 유지하기 위해 주의 집중 블렌딩 기법을 적용한다.
이를 위해 새로운 평가 데이터셋 WhatifVideo-1.0을 제공하며, 다양한 시나리오와 난이도 수준을 포함한다. 실험 결과, 제안 방법이 기존 방법 대비 우수한 성능을 보였다.
統計
여자가 요가를 하고 있다.
큰 그림이 떨어지면 여자가 요가를 그만둘 것이다.
引用
"텍스트 기반 포즈 비디오 편집은 기존 비디오 편집 기술의 한계를 극복하고자 제안된 새로운 개념이다."
"ReimaginedAct는 단순한 지시문뿐만 아니라 가정적 질문에도 대응할 수 있는 강력한 기능을 제공한다."