핵심 개념
본 연구는 기존 비디오 편집 기술의 한계를 극복하고자 텍스트 기반 포즈 비디오 편집 방법을 제안한다. 이를 통해 비디오 내 인간 행동을 자유롭게 편집할 수 있으며, 단순한 지시문뿐만 아니라 "만약 ~한다면" 과 같은 가정적 질문에도 대응할 수 있다.
초록
본 논문은 텍스트 기반 포즈 비디오 편집이라는 새로운 개념을 제안한다. 기존 비디오 편집 기술은 속성, 배경, 스타일 등의 변경에 국한되었지만, 제안 방법인 ReimaginedAct는 비디오 내 인간 행동을 자유롭게 편집할 수 있다.
ReimaginedAct는 다음과 같은 과정으로 동작한다.
언어 모델을 활용하여 질문에 대한 답변을 생성한다.
답변에 해당하는 포즈 비디오를 검색하고 정렬한다.
원본 비디오의 개인 포즈와 검색된 포즈를 결합하여 편집한다.
시간적 일관성을 유지하기 위해 주의 집중 블렌딩 기법을 적용한다.
이를 위해 새로운 평가 데이터셋 WhatifVideo-1.0을 제공하며, 다양한 시나리오와 난이도 수준을 포함한다. 실험 결과, 제안 방법이 기존 방법 대비 우수한 성능을 보였다.
통계
여자가 요가를 하고 있다.
큰 그림이 떨어지면 여자가 요가를 그만둘 것이다.
인용구
"텍스트 기반 포즈 비디오 편집은 기존 비디오 편집 기술의 한계를 극복하고자 제안된 새로운 개념이다."
"ReimaginedAct는 단순한 지시문뿐만 아니라 가정적 질문에도 대응할 수 있는 강력한 기능을 제공한다."