核心概念
StyleTexは、単一のスタイル参照画像とテキストプロンプトを入力として、3Dモデルに対して視覚的に魅力的で調和のとれたスタイル化されたテクスチャを生成する、革新的な拡散モデルベースのフレームワークである。
要約
StyleTex:スタイル画像を用いた3Dモデルのテクスチャ生成
論文情報
Zhiyu Xie, Yuqing Zhang, Xiangjun Tang, Yiqian Wu, Dehan Chen, Gongsheng Li, and Xiaogang Jin. 2024. StyleTex: Style Image-Guided Texture Generation for 3D Models. ACM Trans. Graph. 43, 6, Article 212 (December 2024), 16 pages. https://doi.org/10.1145/3687931
研究目的
本論文は、単一のスタイル参照画像とテキストプロンプトを入力として、3Dモデルに対して視覚的に魅力的で調和のとれたスタイル化されたテクスチャを自動生成する手法を提案する。
手法
提案手法であるStyleTexは、拡散モデルベースの生成フレームワークを採用し、スタイルガイダンスとジオメトリックコントロールを組み込んでいる。
- 入力された3Dモデルのテクスチャは、2D空間のテクスチャマップではなく、3D空間上の各点に色情報を対応付けるニューラルカラーフィールドとして表現される。
- スタイル参照画像から抽出されたスタイル情報は、CLIP空間内でコンテンツ情報と分離され、拡散モデルに注入される。
- ジオメトリックコントロールとして、深度マップと法線マップを入力とするControlNetを用いることで、3Dの一致性と幾何学的詳細を維持する。
- 最適化には、SDSよりも高品質な結果を得られるISM(Interval Score Matching)を用いる。
主な結果
- StyleTexは、単一のスタイル画像からスタイル情報を効果的に抽出し、3Dモデルのテクスチャに適用することで、参照画像と視覚的に調和のとれたテクスチャを生成できる。
- 提案するコンテンツとスタイルの分離手法は、3Dスタイル化テクスチャにおけるコンテンツリークとスタイルドリフトの問題を効果的に解決する。
- 定量評価と定性評価を通して、StyleTexが既存のベースライン手法よりも優れていることが示された。
意義
StyleTexは、ゲームや映画などの仮想環境において、視覚的に魅力的で没入感のあるスタイル化された3Dモデルを自動生成するための効率的かつ効果的な手法を提供する。
限界点と今後の研究
- ハイライトや影の表現については、スタイルの影響により普遍的に適用可能なレンダリングモデルを特定することが困難であるため、今後の改善の余地がある。
- 拡散モデルの蒸留時間の長さは、インタラクティブな環境での使用を制限する要因となる可能性があるため、高速化が課題として挙げられる。
- 現状では、スタイルを構成する要素(素材、筆致、トーン、画風など)を個別に抽出・調整することはできない。
統計
NVIDIA RTX 4090 GPUを用いて、メッシュ1つあたり約15分でテクスチャマップを生成できる。
ユーザー調査では、37人の参加者が12種類のスタイルと24種類のメッシュを用いて生成された結果を評価し、品質、スタイル忠実度、コンテンツ除去の観点から、StyleTexが他の手法よりも優れていることが示された。
25種類のスタイルとObjaverseからランダムに選択した100種類のメッシュを用いた定量評価では、StyleTexが他の手法よりも高いスタイル忠実度とテキストアラインメントを実現した。