核心概念
大規模なテキスト主導の画像生成モデルを活用し、深度とエッジの情報を利用することで、高品質で一貫性のあるテクスチャを生成する。さらに、生成されたテクスチャを使ってデータベースからマテリアルを検索・割り当てることで、リライタブルな3Dアセットを出力する。
要約
本論文では、テキストに基づいて3Dモデルのテクスチャを生成する手法「MatAtlas」を提案する。
まず、大規模なテキスト主導の画像生成モデル(Stable Diffusion)を利用して、3Dモデルのテクスチャを生成する。深度情報とエッジ情報を活用することで、生成されたテクスチャの一貫性と品質を向上させる。
次に、生成されたテクスチャを使って、データベースからマテリアルを検索・割り当てる。これにより、リライタブルで編集可能な3Dアセットを出力することができる。
具体的には以下の手順で処理を行う:
- 深度情報とエッジ情報を利用した条件付き画像生成により、高品質で一貫性のあるRGBテクスチャを生成する。
- 複数の視点からの生成を同期的に行うことで、さらにテクスチャの一貫性を高める。
- 複数のパスを踏むことで、テクスチャの品質を段階的に向上させる。
- 生成されたテクスチャを使って、言語モデルと視覚的特徴を組み合わせることで、適切なマテリアルを自動的に割り当てる。
提案手法は、既存手法と比較して優れた性能を示し、リライタブルで編集可能な3Dアセットの生成を可能にする。
統計
提案手法は、既存手法と比較して、FIDスコアが38.467と優れた性能を示す。
提案手法は、テクスチャの一貫性と品質を大幅に向上させることができる。