이 논문은 대화형 비디오 생성을 위한 PEEKABOO 기법을 소개한다. 현재 비디오 생성 모델들은 높은 품질의 비디오를 생성할 수 있지만, 사용자가 비디오의 공간적, 시간적 측면을 제어할 수 없다는 한계가 있다. PEEKABOO는 이러한 한계를 해결하기 위해 제안된 기법으로, 기존 비디오 생성 모델에 마스크 기반 주의 메커니즘을 추가하여 사용자가 원하는 객체의 크기, 위치 및 궤적을 제어할 수 있게 한다.
PEEKABOO는 세 가지 유형의 주의 메커니즘을 사용한다:
이러한 마스크 기반 주의 메커니즘을 통해 PEEKABOO는 기존 모델 대비 최대 3.8배 향상된 mIoU 성능을 보였으며, 추가 학습이나 지연 시간 증가 없이 대화형 비디오 생성이 가능하다. 또한 PEEKABOO는 텍스트-이미지 생성 모델에도 적용 가능하여 다양한 응용 분야에 활용될 수 있다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問