核心概念
PLA4D 是一種新穎的文本到 4D 生成框架,它利用文本生成的視頻作為像素級別的對齊目標,解決了以往方法中多個擴散模型優化方向衝突的問題,從而生成具有精確幾何形狀、平滑運動和語義一致性的 4D 對象。
摘要
PLA4D:基於像素級別對齊的文本到 4D 高斯樣條生成技術
論文概述
本論文介紹了一種名為 PLA4D 的新型文本到 4D 生成框架,該框架利用文本生成的視頻作為像素級別的對齊目標,解決了以往方法中多個擴散模型優化方向衝突的問題,從而生成具有精確幾何形狀、平滑運動和語義一致性的 4D 對象。
研究背景
現有的文本到 4D 生成方法通常依賴於多個分數蒸餾採樣(SDS)技術,將基於視頻的擴散模型(DMs)的運動先驗與多視圖 DMs 的幾何先驗相結合,以隱式地指導 4D 渲染。然而,這些先驗的差異會在優化過程中導致梯度方向衝突,從而在運動保真度和幾何精度之間進行權衡,並且需要大量的優化時間來協調模型。
PLA4D 方法
PLA4D 引入了靜態對齊和動態對齊模塊,以實現文本驅動的 4D 生成,並利用多個 DMs,包括 T2V DM、I2MV DM 和 T2I DM。
- 靜態對齊模塊:
- **焦距對齊:**自動搜索與參考像素相對應的最佳焦距。
- **高斯網格對比學習:**利用網格為未知視圖中的 4D 高斯提供幾何信息,明確利用網格的幾何先驗。
- 動態對齊模塊:
- **運動對齊:**引導 4D 對象的運動遵循錨定視頻。
- **時間多視圖(T-MV)優化:**使用生成視頻的模型的先驗和條件,優化 4D 對象未知視點的運動和質量。
實驗結果
與現有方法相比,PLA4D 能夠在顯著縮短生成時間的同時,生成具有精確幾何形狀、平滑運動和語義一致性的 4D 對象。
主要貢獻
- 提出了一種新穎的文本驅動的 4D 生成框架,該框架利用顯式錨定參考(即文本生成的視頻)在像素空間中對齊由不同 DMs 調整的渲染過程,從而消除了不同 DMs 的優化衝突。
- 提出了焦距對齊和高斯網格對比學習,自動找到與參考像素相對應的最佳焦距參數,並為 4D 明確提供幾何指導。
- 提出了運動對齊方法和時間多視圖優化模塊來優化 4D,確保與文本語義一致的、類似視頻的大運動。
- PLA4D 具有卓越的性能,能夠在顯著縮短生成時間的同時,生成具有精細紋理、精確幾何形狀和連貫運動的 4D 對象。
統計資料
PLA4D 只需 15 分鐘即可生成一個樣本,迭代次數為 0.6K 次。
在用戶研究中,PLA4D 在運動、幾何形狀和語義一致性方面均獲得了用戶最多的讚譽,分別為 50.86%、51.22% 和 56.06%。
引述
"By using text-generated video as an anchor, we ensure that rendered images are simultaneously aligned with both prompt and pixel representations across the priors of multiple DMs."
"PLA4D can generate a wide range of dynamic objects rapidly, producing diverse, vivid, and intricate details while maintaining geometry consistency."
"This flexible architecture allows the community to freely replace or upgrade components to achieve state-of-the-art performance."