核心概念
CAGE는 사전 학습된 DINOv2 특징을 활용하여 동영상을 합성하고 애니메이션화할 수 있는 비지도 학습 기반 모델이다. 이를 통해 사용자가 원하는 장면을 구성하고 객체의 움직임을 제어할 수 있다.
摘要
이 논문에서는 CAGE라는 새로운 비지도 학습 기반 동영상 생성 모델을 제안한다. CAGE는 사전 학습된 DINOv2 특징을 활용하여 동영상을 합성하고 애니메이션화할 수 있다. 이를 통해 사용자가 원하는 장면을 구성하고 객체의 움직임을 제어할 수 있다.
CAGE의 주요 특징은 다음과 같다:
동영상 합성과 애니메이션을 통합적으로 수행할 수 있는 통일된 제어 방식을 제안한다.
DINOv2 특징을 활용하여 데이터 도메인에 구애받지 않고 객체를 합성하고 애니메이션화할 수 있다.
객체의 크기와 위치에 불변적인 특징 추출 방식을 제안하여 보다 정교한 제어가 가능하다.
다양한 실험을 통해 CAGE의 성능과 제어 능력을 검증하였다.
統計資料
동영상 생성 시 PSNR은 30.02, SSIM은 0.98로 우수한 성능을 보였다.
BAIR 데이터셋에서 CAGE의 FID는 6.4, FVD는 136으로 기존 모델들을 크게 앞섰다.
EPIC-KITCHENS 데이터셋에서 CAGE의 LPIPS는 0.283, PSNR은 22.25로 YODA 모델 대비 큰 성능 향상을 보였다.
引述
"CAGE는 사전 학습된 DINOv2 특징을 활용하여 동영상을 합성하고 애니메이션화할 수 있는 비지도 학습 기반 모델이다."
"CAGE는 객체의 크기와 위치에 불변적인 특징 추출 방식을 제안하여 보다 정교한 제어가 가능하다."