Główne pojęcia
本文提出了一種新的可泛化隱式運動建模方法 (GIMM),用於影片畫面插值,透過學習影片中複雜的運動模式,以產生任意時間點的高品質中間畫面。
本文提出了一種新穎且有效的影片畫面插值運動建模方法:可泛化隱式運動建模 (GIMM)。與現有方法不同,GIMM 不僅考慮雙向光流的線性組合或直接預測給定時間戳記的雙邊光流,更探索了有利的運動先驗,從而更有效地建模真實世界影片中的時空動態。
GIMM 的核心概念是透過一個運動編碼流程,從預先訓練的光流估計器中提取的雙向光流中建模時空運動潛變量,有效地表示特定輸入的運動先驗。然後,它透過一個以時空坐標和運動潛變量作為輸入的自適應基於坐標的神經網路,在兩個相鄰輸入畫面之間隱式地預測任意時間戳記的光流。
實驗結果表明,GIMM 在標準 VFI 基準測試中優於當前最先進的技術,證明了其在任意時間戳記 VFI 任務中運動建模的優勢。
提出了一種有效的影片畫面插值運動建模範例,其特點是一個新穎的可泛化隱式運動建模框架。
GIMM 能夠準確預測兩個相鄰影片畫面之間任意時間戳記、任意解析度的光流,允許與現有的基於光流的 VFI 方法無縫整合。
證明了 GIMM 在任意時間戳記 VFI 任務中運動建模的優勢,在各種基準測試中均取得了最先進的效能。