Yu, H., Wang, C., Zhuang, P., Menapace, W., Siarohin, A., Cao, J., ... & Lee, H. (2024). 4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models. arXiv preprint arXiv:2406.07472v2.
本研究旨在開發一種新方法,利用文字提示生成逼真且具有動態物件和詳細背景的 4D 場景。
本研究提出了一種名為 4Real 的新流程,用於生成具有環境中動態物件的逼真動態場景。該方法採用可變形 3D 高斯樣條 (D-3DGS) 作為動態場景的表示方法。首先,利用文字到影片擴散模型建立具有動態場景的參考影片。接下來,從該參考影片中選擇一個影格作為影片擴散模型的條件輸入,以產生具有圓周攝影機運動和最小物件運動的凍結時間影片。隨後,從凍結時間影片重建規範 3D 表示。最後,重建時間變形以與參考影片中的物件運動對齊。
本研究提出了一種新穎且有效的方法,用於從文字提示生成逼真的 4D 場景。透過利用預先訓練的影片生成模型,4Real 克服了現有方法對合成資料集的依賴,並產生具有增強真實感和結構完整性的動態場景。
這項研究對 4D 場景生成領域做出了重大貢獻,為電影製作、虛擬實境和遊戲等各種應用開闢了新的可能性。
未來的工作可以集中於解決這些限制,例如探索更強大的影片生成模型、改進重建技術以及減少計算成本。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Heng Yu, Cha... lúc arxiv.org 11-22-2024
https://arxiv.org/pdf/2406.07472.pdfYêu cầu sâu hơn