本論文は、ユーザーが独立してカメラの動きとオブジェクトの動きを指定できる、柔軟な動画生成フレームワーク「Direct-a-Video」を提案している。
まず、カメラ移動制御では、新しい時間的クロスアテンション層を導入し、パン、ズームなどのカメラ操作パラメータを解釈することで、定量的なカメラ制御を実現している。また、アノテーションの必要がない自己教師あり学習により、小規模なデータセットでも一般的なシナリオに適用できるようになっている。
一方、オブジェクト動作制御では、事前学習済みモデルの内部プライオリティを活用したスペーシャルクロスアテンション変調を用いることで、追加の最適化なしにオブジェクトの動きを制御できる。ユーザーはオブジェクトの開始・終了位置と軌跡を簡単に指定できる。
このように、カメラ移動とオブジェクト動作を独立して制御できるため、ユーザーは個別または組み合わせて操作することが可能となり、動画制作の柔軟性が大幅に向上している。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Shiyuan Yang... alle arxiv.org 05-07-2024
https://arxiv.org/pdf/2402.03162.pdfDomande più approfondite