核心概念
物体中心の3Dシーン表現を活用することで、高品質な3Dシーンの生成と編集が可能になる。
摘要
本論文では、物体中心の3Dシーン表現を活用した生成モデル「DORSal」を提案している。DORSalは、事前に学習した物体中心のシーン表現(OSRT)を条件情報として、ビデオ拡散モデルを用いて高品質な3Dシーンの生成を行う。
具体的には以下の通り:
- OSRTを用いて、入力画像からオブジェクトスロットと呼ばれる物体中心の表現を抽出する。
- この表現を条件情報として、ビデオ拡散モデルを訓練する。
- 生成時には、オブジェクトスロットと目標のカメラ位置を条件として、高品質な3Dシーンを生成できる。
- さらに、オブジェクトスロットを操作することで、シーンの編集(オブジェクトの追加/削除)が可能になる。
実験では、合成データセットMultiShapeNetと実世界データセットStreet Viewで評価を行い、従来手法と比較して高品質な生成結果を示している。特に、シーンの編集機能は従来手法にはない新しい機能である。
统计
合成データセットMultiShapeNetでは、DORSalの生成結果がFIDで11.01と大幅に改善された。
実世界データセットStreet Viewでは、DORSalのFIDが16.24と大幅に改善された。
引用
"DORSalは、物体中心の3Dシーン表現を活用することで、高品質な3Dシーンの生成と編集が可能になる。"
"実験では、合成データセットMultiShapeNetと実世界データセットStreet Viewで評価を行い、従来手法と比較して高品質な生成結果を示している。"