Heng Yu1,2∗†, Chaoyang Wang 1∗, Peiye Zhuang1, Willi Menapace1, Aliaksandr Siarohin1, Junli Cao1, László A Jeni2, Sergey Tulyakov1, Hsin-Ying Lee1. (2024). 4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models. arXiv preprint arXiv:2406.07472v2 [cs.CV] 20 Nov 2024.
本稿では、テキストからフォトリアリスティックな4Dシーンを生成する新しいパイプライン「4Real」を提案する。従来の4Dシーン生成手法は、合成オブジェクトデータセットで学習したマルチビュー生成モデルに依存していたため、オブジェクト中心の結果になりがちで、写実性と多様性に限界があった。この問題に対処するため、現実世界の多様なビデオデータセットで学習したビデオ生成モデルを活用し、より写実的で多様な4Dシーン生成を目指す。
4Realは、変形可能な3Dガウシアン スプラッツ(D-3DGS)を動的シーンの表現として採用し、3つのステップで構成される。
4Realは、従来手法と比較して、より写実的で多様な動的シーンを生成できることを示した。具体的には、複雑な照明や半透明のオブジェクトを含むシーン、複数のオブジェクトを含むシーンなど、従来手法では困難であったシーンを生成できることを示した。
4Realは、テキストからフォトリアリスティックな4Dシーンを生成するための効果的なパイプラインである。本手法は、ビデオ生成モデルの進歩を活用することで、従来手法の限界を克服し、より高品質で多様な4Dシーン生成を可能にする。
4Realは、映画制作からVRまで、様々な分野で活用されることが期待される。フォトリアリスティックな4Dシーンを生成することで、より没入感のあるインタラクティブな体験を提供することが可能になる。
4Realは、基盤となるビデオ生成モデルの制限を受け継いでおり、ビデオの解像度、高速な動きの際のぼかしやアーチファクト、テキストとビデオの不整合などの問題が残っている。また、動的なコンテンツを含むビデオからの再構成は依然として困難であり、カメラの姿勢推定の不正確さ、急激な動き、オブジェクトの突然の出入り、急激な照明変化などによって、手法が失敗する可能性がある。さらに、3DGSを使用することの制限により、メッシュのような高品質なジオメトリは生成されない。今後の研究では、より正確なカメラの姿勢とオブジェクトの動きを制御できる、より強力なビデオ生成モデルの開発が期待される。また、フリーズタイムビデオの生成時にフレーム間の注意を組み込んだり、フィードフォワード3D再構成を利用したりすることで、これらの制限に対処できる可能性がある。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Heng Yu, Cha... klokken arxiv.org 11-22-2024
https://arxiv.org/pdf/2406.07472.pdfDypere Spørsmål