Core Concepts
ユーザーが独立してカメラの動きとオブジェクトの動きを指定できる、柔軟な動画生成フレームワーク
Abstract
本論文は、ユーザーが独立してカメラの動きとオブジェクトの動きを指定できる、柔軟な動画生成フレームワーク「Direct-a-Video」を提案している。
まず、カメラ移動制御では、新しい時間的クロスアテンション層を導入し、パン、ズームなどのカメラ操作パラメータを解釈することで、定量的なカメラ制御を実現している。また、アノテーションの必要がない自己教師あり学習により、小規模なデータセットでも一般的なシナリオに適用できるようになっている。
一方、オブジェクト動作制御では、事前学習済みモデルの内部プライオリティを活用したスペーシャルクロスアテンション変調を用いることで、追加の最適化なしにオブジェクトの動きを制御できる。ユーザーはオブジェクトの開始・終了位置と軌跡を簡単に指定できる。
このように、カメラ移動とオブジェクト動作を独立して制御できるため、ユーザーは個別または組み合わせて操作することが可能となり、動画制作の柔軟性が大幅に向上している。
Stats
動画の品質を示すFVDは888.91、FID-vidは48.96と、ベースラインよりも優れている。
カメラ移動の精度を示すflow errorは0.46と低く、ベースラインよりも高い精度を達成している。
オブジェクトの位置合わせ精度を示すmIoUは47.83%、AP50は31.33%と、ベースラインを上回っている。