이 논문에서는 EchoReel이라는 새로운 프레임워크를 소개한다. EchoReel은 사전 학습된 비디오 확산 모델의 동작 생성 능력을 향상시키기 위해 참조 비디오를 활용하는 in-context 학습 접근법을 사용한다.
EchoReel은 Action Prism이라는 모듈을 도입하여 참조 비디오에서 동작 관련 특징을 추출한다. 이 특징은 새로운 주의 메커니즘을 통해 사전 학습된 비디오 확산 모델에 주입되어 동작 생성을 향상시킨다. 이 접근법은 모델의 기존 지식을 유지하면서도 새로운 동작 생성 기능을 추가할 수 있다.
실험 결과, EchoReel은 기존 모델에 비해 동작 생성 능력을 크게 향상시킬 수 있다. 또한 단일 참조 비디오로도 효과적으로 일반화할 수 있으며, 이미지-비디오 생성 작업에도 적용할 수 있다는 것을 보여준다.
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Jianzhi liu,... às arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11535.pdfPerguntas Mais Profundas