核心概念
本文介紹了一種名為 TEXGen 的新型大型生成模型,用於生成高解析度網格紋理。該模型採用混合 2D-3D 網路架構,結合了 2D UV 紋理映射和 3D 點雲處理的優勢,可以直接從文字提示和單視圖圖像生成高品質紋理,並支援紋理繪製、稀疏視圖紋理完成等應用。
摘要
TEXGen:一種用於網格紋理生成的生成擴散模型
論文資訊
Xin Yu, Ze Yuan, Yuan-Chen Guo, Ying-Tian Liu, Jianhui Liu, Yangguang Li, Yan-Pei Cao, Ding Liang, and Xiaojuan Qi. 2024. TEXGen: a Generative Diffusion Model for Mesh Textures. ACM Trans. Graph. 43, 6, Article 213 (December 2024), 14 pages. https://doi.org/10.1145/3687909
研究目標
本研究旨在開發一種能夠為三維網格生成高品質紋理的生成模型,並使其能夠根據使用者提供的條件(例如圖像或文字提示)進行生成。
方法
- 資料表示:採用 UV 紋理映射作為網格紋理表示,將三維結構扁平化為二維表示,便於進行擴散訓練。
- 模型構建與學習:開發了一種新穎的混合 2D-3D 網路結構,結合了二維 UV 空間和三維點雲的優勢,以有效處理紋理映射的獨特特徵。並訓練了一個擴散模型,根據單視圖圖像和文字描述生成高解析度紋理映射。
- 推論:訓練完成後,模型可以從噪聲圖像開始,迭代地對其進行去噪,以生成高解析度紋理映射。此外,該模型還支援各種無需訓練的擴展應用,例如文字引導的紋理合成、紋理繪製和從稀疏視圖進行紋理完成。
主要發現
- 提出了一種新穎的網路架構,專為學習高解析度 UV 紋理映射而設計,其中構建了一個混合 2D-3D 去噪模塊,用於有效的特徵學習。
- 基於此架構,訓練了一個大型擴散模型,用於生成高解析度紋理映射。據我們所知,這是第一個能夠以端到端的方式生成紋理映射而無需額外階段或測試時優化的工作。
- 該方法取得了最先進的結果,並作為一個基礎模型,支援各種無需訓練的應用,例如文字引導的紋理合成、繪製和從稀疏視圖進行紋理完成。
主要結論
TEXGen 作為一個大型生成擴散模型,能夠有效地為一般三維物體創建高解析度紋理。與依賴於預先訓練的二維擴散模型並需要測試時優化的傳統方法不同,TEXGen 利用新穎的混合 2D-3D 模塊直接合成詳細且連貫的紋理,該模塊能夠靈活地處理局部細節保真度和全局三維感知交互。TEXGen 能夠以 feed-forward 的方式生成高解析度紋理映射,支援各種零樣本應用,包括文字引導的紋理繪製、稀疏視圖紋理完成和文字到紋理的合成。作為第一個能夠為一般物體生成紋理的 feed-forward 模型,TEXGen 為該領域樹立了新的基準。
意義
本研究為網格紋理生成領域帶來了突破性的進展,提出了一種高效且通用的解決方案。所提出的 TEXGen 模型在品質和效率方面均優於現有方法,並為未來的研究和應用奠定了基礎。
局限性和未來研究方向
- 目前模型的訓練資料集主要集中在特定類別的物體上,未來可以考慮擴展到更廣泛的物體類別。
- 模型的運算效率還有提升空間,可以探索模型壓縮或擴散加速等技術,進一步提升模型的推理速度。
統計資料
該模型在包含超過 800,000 個 3D 網格的 Objaverse 資料集上進行訓練。
研究人員從中提取了 120,400 對資料,其中 120,000 對用於訓練,剩餘的 400 對用於評估。
TEXGen 模型在單個 A100 GPU 上的運行時間不到 10 秒。
在 FID 和 KID 的量化指標上,TEXGen 模型相較於其他方法具有顯著的優勢。
引述
"While high-quality texture maps are essential for realistic 3D asset rendering, few studies have explored learning directly in the texture space, especially on large-scale datasets."
"In this work, we depart from the conventional approach of relying on pre-trained 2D diffusion models for test-time optimization of 3D textures."
"We introduce TEXGen, a large generative model for mesh texturing."
"To the best of our knowledge, this is the first work capable of generating texture maps in an end-to-end manner without requiring additional stages, or test-time optimization."