本研究は、単眼ビデオから高品質な立体視ビデオを生成するための新しいフレームワークを提案している。
まず、深度推定モデルを使って入力ビデオの深度マップを推定する。次に、深度に基づいたビデオスプラッティング手法を用いて、左ビューから右ビューへの変換を行い、同時にオクルージョンマスクを生成する。
その後、生成された変換ビデオとオクルージョンマスクを入力として、拡散モデルベースの立体視ビデオ補完手法を適用し、最終的な右ビューを生成する。
拡散モデルのプリトレーニングを活用することで、深度推定と立体視ビデオ補完の性能を大幅に向上させている。また、自己回帰的なモデリングと分割処理を導入することで、任意の長さや解像度のビデオに対応できるようにしている。
さらに、高品質なトレーニングデータセットを構築するための処理パイプラインも提案されている。
本手法は、Apple Vision Proや3Dディスプレイなどの立体視デバイスで視聴可能な高品質な立体視ビデオを生成することができ、デジタルメディアの体験を変革する可能性を秘めている。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések