本論文では、物体中心の3Dシーン表現を活用した生成モデル「DORSal」を提案している。DORSalは、事前に学習した物体中心のシーン表現(OSRT)を条件情報として、ビデオ拡散モデルを用いて高品質な3Dシーンの生成を行う。
具体的には以下の通り:
実験では、合成データセットMultiShapeNetと実世界データセットStreet Viewで評価を行い、従来手法と比較して高品質な生成結果を示している。特に、シーンの編集機能は従来手法にはない新しい機能である。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Allan Jabri,... alle arxiv.org 05-06-2024
https://arxiv.org/pdf/2306.08068.pdfDomande più approfondite