本文提出了一個從單眼視頻生成立體3D視頻的框架,包括兩個主要步驟:基於深度的視頻噴濺和立體視頻修復。
首先,使用先進的視頻深度估計模型獲得輸入視頻的深度圖,然後利用基於深度的視頻噴濺方法將左視圖畫面轉換為右視圖,同時生成遮擋掩碼。接下來,基於轉換後的視頻和遮擋掩碼,使用擴散模型進行立體視頻修復,生成最終的右視圖視頻。
為了使框架能夠處理各種類型的輸入視頻,作者首先採用預訓練的穩定視頻擴散模型作為骨幹網絡,利用這個強大的視覺先驗知識,大大提高了結果的質量和一致性。隨後,作者提出了一個fine-tuning協議,使模型適應立體視頻修復任務,該任務需要包含遮擋視頻、遮擋掩碼和補全視頻的數據。為了重建這個數據集,作者提出了一個數據處理管線,利用收集的立體視頻和作者提出的視頻噴濺方法。
最後,為了適應不同長度和分辨率的輸入視頻,作者探索了自迴歸建模和分塊處理策略。
總的來說,本文提出了一個有效的從單眼視頻生成高質量立體3D視頻的方法,為未來如何體驗數字媒體提供了一種實用的解決方案。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies