이 논문은 에코릴이라는 새로운 프레임워크를 소개한다. 에코릴은 사전 학습된 비디오 확산 모델의 복잡한 액션 생성 능력을 향상시키기 위해 참조 비디오의 풍부한 가용성을 활용한다.
에코릴은 액션 프리즘(Action Prism)이라는 모듈을 도입하여 참조 비디오에서 동작 정보를 효과적으로 추출한다. 이렇게 추출된 동작 정보는 사전 학습된 비디오 확산 모델에 통합되어 생성 과정을 안내한다. 이 통합은 기존 모델의 무결성을 훼손하지 않으면서 이루어진다.
실험 결과, 에코릴은 참조 비디오의 내용을 단순히 복제하지 않고도 다양한 액션을 생성할 수 있음을 보여준다. 또한 기존 모델의 성능을 크게 향상시키며, 특히 FVD 지표에서 36% 감소를 달성했다. 이는 에코릴이 복잡한 동작을 효과적으로 생성할 수 있음을 입증한다.
To Another Language
from source content
arxiv.org
Ключові висновки, отримані з
by Jianzhi liu,... о arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11535.pdfГлибші Запити