核心概念
DragAnything은 개체 표현을 활용하여 어떤 객체든 자유롭게 움직일 수 있는 모션 제어 기능을 제공한다.
要約
DragAnything은 기존 모션 제어 방식의 한계를 극복하기 위해 개체 표현을 활용한다. 기존 방식은 단일 픽셀 또는 픽셀 영역을 드래그하여 모션을 제어했지만, 이는 객체 전체를 정확하게 표현하지 못했다. DragAnything은 확산 모델의 잠재 특징을 활용하여 각 개체를 효과적으로 표현하고, 이를 통해 개체 단위의 정밀한 모션 제어를 달성한다.
구체적으로 DragAnything은 다음과 같은 과정을 거친다:
- 첫 번째 프레임의 개체 마스크를 활용하여 확산 모델의 잠재 특징을 추출하고, 이를 개체 표현으로 사용한다.
- 2D 가우시안 표현과 개체 표현을 결합하여 최종 표현을 생성한다.
- 이 표현을 기반으로 비디오 생성 모델을 학습하여 사용자가 제공한 모션 트래젝토리에 따라 비디오를 생성한다.
실험 결과, DragAnything은 기존 방식 대비 FVD, FID, 사용자 평가 등에서 뛰어난 성능을 보였으며, 특히 모션 제어 측면에서 26% 향상된 결과를 달성했다.
統計
개체 표현을 활용하면 단일 픽셀이 아닌 전체 개체를 정확하게 제어할 수 있다.
픽셀 기반 제어 방식에서는 드래그 지점에 가까운 픽셀일수록 더 큰 움직임이 발생하지만, 개체 표현을 사용하면 전체 개체가 일관되게 움직인다.
引用
"단일 픽셀 점은 전체 객체를 나타낼 수 없다."
"개체 표현은 어떤 객체든 나타낼 수 있는 개방형 임베딩으로 작용한다."