本文提出了一種名為 SpatialDreamer 的新型自我監督立體視頻合成框架,該框架透過視頻擴散模型解決了訓練數據不足和時空一致性問題,並透過深度視頻生成模組和一致性控制模組,實現了高質量、無抖動且具有時空一致性的立體視頻合成效果。
本文提出了ImmersePro,一個專門設計用於將單視角視頻轉換為立體視頻的創新框架。該框架利用空間-時間注意力機制,採用包含視差分支和上下文分支的雙分支架構。ImmersePro使用隱式視差指導,無需顯式視差圖即可生成立體對,從而減少了視差估計模型相關的潛在錯誤。此外,我們還引入了YouTube-SBS數據集,這是一個龐大的立體視頻集合,包含超過700萬個立體對,為立體視頻生成模型的訓練和基準測試提供了支持。實驗結果表明,ImmersePro在產生高質量立體視頻方面的有效性,相比最佳競爭對手"單視角轉立體"在L1、SSIM和PSNR指標上分別提高了11.76%、6.39%和5.10%。