我們提出了參考影像線稿視頻著色的第一個視頻擴散框架。與之前僅依賴於影像生成模型的方法不同,我們利用預訓練的大規模視頻擴散模型生成時間一致的動畫視頻。
首先,我們引入了Sketch-guided ControlNet,為微調圖像到視頻擴散模型提供額外的控制,使其能夠生成基於線稿的動畫視頻。然後,我們提出了參考注意力機制,以促進顏色從參考幀轉移到包含快速和大範圍運動的其他幀。最後,我們提出了一種新的連續採樣方案,包括重疊融合模塊和前參考注意力,以擴展視頻擴散模型超越其原始固定長度的限制,實現長視頻著色。
無論是定性還是定量結果,我們的方法在幀質量、視頻質量和時間一致性方面都明顯優於最新技術。此外,我們的方法能夠生成高質量、時間一致的大運動動畫視頻,這在之前的工作中是無法實現的。
翻譯成其他語言
從原文內容
arxiv.org
深入探究