本文提出了一種新的方法,可以根據文字提示為輸入的粗糙3D網格添加幾何細節。該方法分為三個階段:
單視圖RGB生成:使用大規模預訓練的文字到圖像模型生成一個單視圖RGB圖像,該圖像遵循輸入網格的結構並符合文字描述。
多視圖法線生成:設計一個多視圖ControlNet,它可以根據單視圖RGB圖像和輸入網格的多視圖法線渲染生成多視圖一致的法線圖像。
網格優化:使用可微分渲染器優化輸入網格,使其與生成的多視圖法線圖像匹配,從而獲得最終的細節網格。
該方法不需要成對的粗糙和細節網格訓練數據,而是利用大規模預訓練的文字到圖像模型作為監督。與現有的基於分數蒸餾採樣的方法相比,該方法運行速度快,可以在幾秒內生成結果。實驗結果表明,該方法生成的網格在幾何細節、視覺質量和與輸入文字一致性方面優於現有方法。
翻譯成其他語言
從原文內容
arxiv.org
深入探究