核心概念
本文提出了一種名為 3D-Adapter 的新型插件模組,旨在增強現有多視角擴散模型的 3D 幾何一致性,從而彌合高品質 2D 和 3D 內容創作之間的差距。
摘要
書目資訊
Chen, H., Shen, B., Liu, Y., Shi, R., Zhou, L., Lin, C. Z., ... & Guibas, L. (2024). 3D-Adapter: Geometry-Consistent Multi-View Diffusion for High-Quality 3D Generation. arXiv preprint arXiv:2410.18974.
研究目標
本研究旨在解決現有多視角擴散模型在生成 3D 內容時,缺乏局部幾何一致性的問題,並提升生成 3D 模型的品質。
方法
研究提出了一種名為 3D-Adapter 的插件模組,該模組可以整合到預先訓練好的圖像擴散模型中。3D-Adapter 的核心概念是 3D 回饋增強,它會在每個去噪步驟中,將中間多視角特徵解碼為一致的 3D 表示,然後重新編碼渲染的 RGBD 視圖,並通過特徵添加來增強預先訓練好的基礎模型。
本研究提出了兩種 3D-Adapter 變體:
- 基於高斯樣條函數的快速前饋版本:利用預先訓練好的多視角擴散模型的 U-Net 和 VAE 解碼中間去噪圖像,然後將其輸入到高斯重建模型 (GRM) 中以獲得 3D 高斯樣條函數 (3DGS)。隨後,使用微調的 U-Net 編碼器 (ControlNet) 重新編碼渲染的 RGBD 圖像,並將特徵融合回原始 U-Net 解碼器,以產生一致的去噪輸出。
- 使用 3D 優化和預先訓練好的 ControlNet 的靈活免訓練版本:通過優化 Instant-NGP 神經輻射場 (NeRF) 和 DMTet 網格來聚合多個獨立視圖的中間圖像,從而實現高度靈活的相機佈局選擇。對於具有現成 ControlNet 的流行基礎模型(例如 Stable Diffusion),可以使用“tile”和深度 ControlNet 的組合對渲染的 RGBD 圖像進行重新編碼,從而無需進一步微調。
主要發現
- 3D-Adapter 能夠顯著增強現有多視角擴散模型的 3D 幾何一致性,生成更逼真、細節更豐富的 3D 模型。
- 基於高斯樣條函數的快速 3D-Adapter 能夠有效提升 Instant3D 和 Zero123++ 等模型的生成品質。
- 使用 3D 優化和預先訓練好的 ControlNet 的靈活免訓練 3D-Adapter 適用於更廣泛的基礎模型和任務,例如文字到 3D、圖像到 3D、文字到紋理和文字到虛擬角色生成。
主要結論
3D-Adapter 是一種有效且通用的解決方案,可以解決現有多視角擴散模型在生成 3D 內容時面臨的挑戰。它為高品質 3D 內容創作提供了新的可能性,並為未來的研究開闢了新的方向。
意義
本研究提出的 3D-Adapter 有助於推動 3D 生成技術的發展,並促進其在遊戲、虛擬實境、增强現實等領域的應用。
局限性和未來研究方向
- 3D-Adapter 引入了大量的計算開銷,主要是由於在 3D 重建之前需要進行 VAE 解碼。
- 微調的 ControlNet 容易過度擬合微調數據,這可能會限制其泛化能力。
- 未來研究可以集中於開發更高效、易於微調的 3D-Adapter 網絡。
統計資料
使用 EDM Euler ancestral solver,30 個去噪步驟,平均潛在初始化,每個步驟的推理時間約為 0.7 秒。
使用 4 個 A6000 GPU,總批量大小為 16 個對象,訓練 3D-Adapter。
在第一階段,使用 5 × 10^-6 的小學習率對 GRM 進行微調,迭代次數為 2k(Instant3D)或 4k(Zero123++)。
在第二階段,使用 1 × 10^-5 的學習率對 ControlNet 進行微調,迭代次數為 5k。
使用 Objaverse 高品質子集中的 47k(Instant3D)或 80k(Zero123++)個對象渲染作為訓練數據。
在文字到紋理生成中,使用 32 個環繞視圖,並在去噪過程中逐漸減少到 7 個視圖。
在文字到虛擬角色生成中,使用 32 個全身視圖和 32 個上半身視圖進行去噪,並在去噪過程中減少到 12 個視圖。
引述
"To overcome the limitations of I/O sync, we propose a novel approach termed 3D feedback augmentation, which attaches a 3D-aware parallel branch to the base model, while preserving the original network topology and avoiding score averaging."
"Essentially, this branch decodes intermediate features from the base model to reconstruct an intermediate 3D representation, which is then rendered, encoded, and fed back into the base model through feature addition, thus augmenting 3D awareness."
"Our extensive experiments demonstrate that 3D-Adapter not only greatly enhances the geometry quality of text-to-multi-view models such as Instant3D and Zero123++, but also enables high-quality 3D generation using the plain text-to-image Stable Diffusion."