核心概念
本稿では、基本的なプリミティブから高忠実度の3Dオブジェクトを生成し、NeRFまたは3DGSシーンに合成するためのパイプラインを提案するが、視覚の一貫性と生成品質に課題が残る。
要約
3D環境のAI駆動スタイライゼーション:課題と限界
本稿は、3D環境、特にNeRFsなどの表現を用いた3Dシーンのスタイライゼーションに関する研究論文である。
本研究は、ユーザーがテキストプロンプトを通じて3Dシーン内のオブジェクトのスタイルを簡単に変更できるパイプラインの開発を目的とする。具体的には、基本的なプリミティブを入力として、ユーザーの指示に基づいて、それを高忠実度の家具などのオブジェクトに自動的に変換し、既存の3Dシーンに違和感なく統合することを目指す。
提案されたパイプラインは、以下の3つの主要コンポーネントで構成されている。
プリミティブスタイライザー: InstructPix2Pixを用いて、プリミティブの単一ビュー画像とテキストプロンプトを入力とし、スタイルが適用された単一ビュー画像を生成する。
メッシュジェネレーター: スタイルが適用された単一ビュー画像から、Convolutional Reconstruction Model (CRM)またはGaussian Reconstruction Model (GRM)を用いて、対応するテクスチャ付きメッシュを生成する。
シーンインテグレーター: 生成されたメッシュを、SIGNeRFを用いてターゲットシーンに統合する。SIGNeRFは、ControlNetを活用して、さまざまな視点から見たときに一貫性のあるシーンの拡張を可能にする。