이 논문에서는 VIDIM이라는 비디오 보간 모델을 제안한다. VIDIM은 확산 모델을 사용하여 시작 및 종료 프레임 사이의 중간 프레임을 생성한다.
먼저 저해상도 비디오를 생성하는 기본 모델을 학습한다. 그 다음 고해상도 시작 및 종료 프레임을 활용하여 저해상도 비디오를 고해상도로 업샘플링하는 초해상도 모델을 학습한다.
이 두 모델을 결합하여 최종적으로 고해상도 비디오를 생성한다. 실험 결과, VIDIM은 기존 방법들에 비해 복잡하고 모호한 움직임을 가진 비디오에서 더 나은 성능을 보인다. 또한 시작 및 종료 프레임에 대한 조건부 생성과 classifier-free guidance 기법이 성능 향상에 중요한 역할을 한다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Sidd... kl. arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.01203.pdfDybere Forespørgsler