Core Concepts
高品質な画像から動画を生成するためのAtomoVideoフレームワークを提案します。
Abstract
最近、優れたテキストから画像への生成技術に基づいて、動画生成は急速に発展しています。この研究では、高忠実度なイメージからビデオを生成するためのAtomoVideoという高忠実度フレームワークを提案しています。マルチグラニュラリティイメージインジェクションに基づいて、与えられたイメージに対する生成されたビデオの忠実度を向上させます。また、高品質なデータセットとトレーニング戦略により、優れた運動強度を実現しつつも、優れた時間的一貫性と安定性を維持します。我々のアーキテクチャは柔軟にビデオフレーム予測タスクに拡張され、反復的生成を通じて長いシーケンス予測が可能です。さらに、アダプタトレーニングの設計により、既存のパーソナライズドモデルやコントロール可能なモジュールとうまく組み合わせることができます。定量的および定性的評価により、AtomoVideoは人気のある手法と比較して優れた結果を達成しました。
Stats
AtomoVideoは他の手法と比較して最良のスコアをすべての評価次元で達成しました。
AtomoVideoは他の手法と比較して最も優れた画像一貫性スコアを達成しました。
AtomoVideoは他の商用手法と比較して競争力ある運動強度スコアを示しました。
Quotes
"AtomoVideo achieves superior results compared to popular methods."
"Our method greatly exploits the generative capabilities of the T2I model."
"We achieve more coherent and stable temporal consistency when generating videos with greater motion intensity."