最近、優れたテキストから画像への生成技術に基づいて、動画生成は急速に発展しています。この研究では、高忠実度なイメージからビデオを生成するためのAtomoVideoという高忠実度フレームワークを提案しています。マルチグラニュラリティイメージインジェクションに基づいて、与えられたイメージに対する生成されたビデオの忠実度を向上させます。また、高品質なデータセットとトレーニング戦略により、優れた運動強度を実現しつつも、優れた時間的一貫性と安定性を維持します。我々のアーキテクチャは柔軟にビデオフレーム予測タスクに拡張され、反復的生成を通じて長いシーケンス予測が可能です。さらに、アダプタトレーニングの設計により、既存のパーソナライズドモデルやコントロール可能なモジュールとうまく組み合わせることができます。定量的および定性的評価により、AtomoVideoは人気のある手法と比較して優れた結果を達成しました。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問