Основні поняття
본 연구는 이미지 확산 모델과 비디오 확산 모델을 결합하여 고품질이면서도 시간적으로 일관된 비디오를 생성하는 새로운 접근법을 제안한다.
Анотація
본 연구는 이미지 확산 모델(LIDM)과 비디오 확산 모델(LVDM)을 결합하여 고품질이면서도 시간적으로 일관된 비디오를 생성하는 새로운 접근법을 제안한다.
LIDM은 이미지 데이터로 학습되어 이미지 품질을 향상시키고, LVDM은 비디오 데이터로 학습되어 시간적 일관성을 보장한다. 두 모델을 역확산 과정에서 선택적으로 사용하여 비디오 생성의 장점을 모두 활용한다.
추가로, 역확산 과정에서 엔트로피 감소와 시간적 잠재 공간 smoothing 기법을 제안하여 시간적 일관성을 더욱 향상시켰다.
실험 결과, 제안 모델은 기존 방법 대비 정량적, 정성적으로 우수한 비디오 생성 성능을 보였다.
Статистика
제안 모델은 UCF-101 데이터셋으로 학습되었다.
64x64, 128x128, 256x256 해상도의 비디오를 생성할 수 있다.
Цитати
"본 연구는 이미지 확산 모델과 비디오 확산 모델을 결합하여 고품질이면서도 시간적으로 일관된 비디오를 생성하는 새로운 접근법을 제안한다."
"추가로, 역확산 과정에서 엔트로피 감소와 시간적 잠재 공간 smoothing 기법을 제안하여 시간적 일관성을 더욱 향상시켰다."