本研究では、ディフュージョンモデルを用いた動画補間手法「VIDIM」を提案している。VIDIMは、低解像度の動画を先に生成し、それを元に高解像度の動画を生成するカスケード型のモデルである。
具体的には以下の特徴がある:
定量的な評価では、従来手法と比べて高いパフォーマンスを示し、人間評価でも圧倒的に好評価を得ている。特に、大きな動きや複雑な動きが含まれる動画において、VIDIMは優れた補間結果を生成できることが確認された。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Sidd... alle arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.01203.pdfDomande più approfondite