本研究では、ディフュージョンモデルを用いた動画補間手法「VIDIM」を提案している。VIDIMは、低解像度の動画を先に生成し、それを元に高解像度の動画を生成するカスケード型のモデルである。
具体的には以下の特徴がある:
定量的な評価では、従来手法と比べて高いパフォーマンスを示し、人間評価でも圧倒的に好評価を得ている。特に、大きな動きや複雑な動きが含まれる動画において、VIDIMは優れた補間結果を生成できることが確認された。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Sidd... lúc arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.01203.pdfYêu cầu sâu hơn