Belangrijkste concepten
MotionAura 是一種基於新型 3D VAE 和頻譜變換器的新型文字轉影片生成框架,能夠生成具有逼真時間一致性且與輸入文字提示一致的高品質影片。
論文概述
本論文介紹了 MotionAura,這是一個用於生成高品質且運動一致的影片的新型文字轉影片生成框架。MotionAura 的核心是 3D-MBQ-VAE,這是一種新型的 3D VAE,可以實現高重建品質。該模型採用了一種基於影片幀完整遮罩的新訓練策略,從而提高了重建影片幀的時間一致性。MotionAura 利用向量量化擴散模型將潛在空間離散化並捕捉複雜的運動動態,從而產生與文字提示一致的時間連貫影片。
主要貢獻
本論文的主要貢獻包括:
提出一種用於影片幀時空壓縮的新型 3D-MBQ-VAE。
介紹 MotionAura,這是一個利用向量量化擴散模型進行文字條件影片生成的新框架。
提出一種稱為頻譜變換器的去噪網路,它採用傅立葉變換在頻域中處理影片潛變量。
首次解決了草圖引導的影片修復的下游任務。
模型架構
MotionAura 的架構由兩個主要組成部分組成:
**3D-MBQ-VAE:**這是一種新型的 3D VAE,用於將影片編碼為潛在空間。3D-MBQ-VAE 採用了一種新的訓練策略,該策略基於影片幀的完整遮罩。這種策略提高了重建影片幀的時間一致性。
**頻譜變換器:**這是一個基於變換器的去噪網路,用於學習反向離散擴散過程。它採用傅立葉變換在頻域中處理影片潛變量,從而更好地捕捉全局上下文和長距離依賴關係。
實驗結果
實驗結果表明,3D-MBQ-VAE 在重建品質方面優於現有網路。此外,MotionAura 在文字條件影片生成和草圖引導的影片修復方面均達到了最先進的效能。
結論
MotionAura 是一種用於生成高品質且運動一致的影片的新方法。該模型生成的影片具有高度的時間一致性和影片品質。MotionAura 提出了幾項創新,例如在 VAE 預訓練期間使用新的遮罩索引損失、使用 FFT 層將高頻特徵與低頻特徵分開,以及使用 RoPE 嵌入來確保去噪潛變量中更好的時間一致性。
Statistieken
MotionAura-L 生成 5 秒影片需要 38 秒,而 CogVideoX-5B 需要 41 秒。
MotionAura-L 生成 10 秒影片需要 83 秒。
在文字條件影片生成任務中,隨著文字描述長度的增加,FVD 降低,CLIPSIM 增加。
在基於草圖的影片修復任務中,LoRA 適配器的等級越高,模型效能越好。