Core Concepts
ビデオ生成の最新研究を包括的にレビューし、長いビデオ生成のためのパラダイムを探求する。
Abstract
ビデオ生成は急速に進化する研究分野であり、長時間のビデオを生成することは独自の課題と機会を提供している。
長いビデオの定義には標準が欠如しており、さまざまな研究で異なる基準が使用されている。
現在の研究では、長いビデオの生成に関連する重要なメトリクスや数字が示されている。
長時間のビデオ生成はハードウェアリソースやトレーニングコストなど多くの課題に直面しており、さらなる研究と開発が必要である。
基本的なビデオ生成技術
Diffusionモデル、Autoregressiveモデル、GAN、Mask Modelingモデルが詳細に説明されている。
これらのモデルはそれぞれ異なるアプローチを取っており、高品質かつ現実的なビデオシーケンスを生み出すために活用されている。
長いビデオ生成パラダイム
Divide and ConquerパラダイムとTemporal Autoregressiveパラダイムが紹介されており、それぞれ異なる手法で長時間のビデオ生成タスクを単純化している。
現在の研究ではこれらのパラダイムがどのように活用されており、長時間のビデオシーケンスを効果的に作成しているかが詳細に解説されている。
データセットと評価メトリクス
長時間のビデオ生成研究で広く使用されている主要な評価メトリクスや人間パフォーマンス指標が示されており、各メトリクスごとにその特徴や利用方法が記載されている。
各種評価メトリクスや主要なテストセット(UCF-101, BAIR, WebVid10M など)も詳細に列挙されており、現在行われている長時間のビデオジェネレーション技術への基準として役立つ情報が提供されています。
Stats
"30 seconds"以上は「長」動画と見做す。
Yin et al. (2023) は1024フレームまで含む動画を成功裏に生成した。
Zhuang et al. (2024) はLarge Language Models(LLM)を活用し、「分」単位程度まで拡張可能。
Sora (OpenAI, 2024) は1分間まで高品質かつ滑らかな動画を無理なく作成。
Quotes
"このサーベイでは既存研究から得られた洞察や知見を提供し、将来的な進展へ貢献したい"
"現在存在する2つのパラダイムそれぞれが弱点を持っており..."