核心概念
本文提出了一種名為 I2VControl-Camera 的新型攝影機控制方法,該方法通過使用攝影機坐標系中的點軌跡和運動強度作為控制信號,顯著提高了影片生成中的控制精度和對物件運動強度的可調節性。
摘要
論文資訊
- 標題:I2VControl-Camera:具備可調節運動強度的精確影片攝影機控制
- 作者:Wanquan Feng, Jiawei Liu, Pengqi Tu, Tianhao Qi, Mingzhen Sun, Tianxiang Ma, Songtao Zhao, Siyu Zhou, Qian He
- 機構:ByteDance China, University of Science and Technology of China (USTC), Institute of Automation, Chinese Academy of Sciences (CASIA)
研究目標
本研究旨在解決現有影片生成方法中攝影機控制精度不足以及忽略物件運動動態控制的問題,提出一種能夠精確控制攝影機運動並調節物件運動強度的全新方法。
方法
- 提出以攝影機坐標系中的點軌跡作為控制信號,取代傳統的外部矩陣資訊,以提高控制精度和穩定性。
- 通過對影片軌跡展開的高階分量進行建模,明確表示物件運動的非線性部分,並設計一個運算符來有效地表示運動強度。
- 構建了一個與基礎模型結構無關的適配器架構,並使用包含 3D 追蹤資訊和運動遮罩的 RGB 影片數據集進行訓練。
主要發現
- 在靜態場景中,將運動強度設置為零可以實現比先前方法更高的精度。
- 在動態場景中,可以配置更高的運動強度,從而實現高控制精度和逼真的物件運動。
- I2VControl-Camera 在定量和定性評估中均優於先前的方法,包括 MotionCtrl 和 CameraCtrl。
結論
I2VControl-Camera 為影片生成提供了一種強大的攝影機控制方法,能夠精確控制攝影機運動並調節物件運動強度,顯著提高了生成影片的品質和可控性。
未來研究方向
- 將 I2VControl-Camera 擴展到更多控制模式,例如拖動和運動筆刷控制。
- 研究如何將 I2VControl-Camera 應用於其他影片生成任務,例如文字到影片生成。
統計資料
訓練數據集包含 30,000 個影片片段。
測試集包含來自 RealEstate10K 數據集的 500 個靜態場景片段和 480 個包含可移動物件的文字到圖像生成樣本。
使用 16 個 NVIDIA A100 GPU 進行訓練,批次大小為每個 GPU 1,訓練步數為 20,000 步,耗時約 36 小時。
評估指標包括旋轉誤差 (RotErr)、平移誤差 (TransErr)、Fr´echet 起始距離 (FID) 和運動分數 (MSC)。
引述
"To improve control precision, we employ point trajectory in the camera coordinate system instead of only extrinsic matrix information as our control signal."
"To accurately control and adjust the strength of subject motion, we explicitly model the higher-order components of the video trajectory expansion, not merely the linear terms, and design an operator that effectively represents the motion strength."