核心概念
本文提出了一種基於逆向渲染和對抗式隱函數的環境映射編輯方法,透過將環境映射參數化為穩健的隱函數,並利用逆向渲染進行優化,實現對環境映射的光源和陰影進行編輯,同時保持背景完整性和視覺一致性。
摘要
書目資訊
D'Orazio, A., Sforza, D., Pellacini, F., & Masi, I. (2024). Environment Maps Editing using Inverse Rendering and Adversarial Implicit Functions. In STAG: Smart Tools and Applications in Graphics (2024) (pp. 1-11). Eurographics - The European Association for Computer Graphics.
研究目標
本研究旨在開發一種新穎的方法,透過逆向渲染和對抗式隱函數來編輯高動態範圍 (HDR) 環境映射,解決現有方法在處理 HDR 圖像時遇到的像素稀疏性和值方差問題。
方法
- 使用基於 SIREN(正弦表示網絡)的隱函數對環境映射進行參數化,並透過對數空間表示和 HDR 空間損失函數來處理 HDR 圖像。
- 採用對抗式權重擾動來訓練 SIREN 模型,使其對梯度更新更加穩健,從而產生更自然、更少偽影的環境映射。
- 利用逆向渲染管道,將渲染圖像與目標圖像進行比較,並透過梯度下降優化環境映射的隱函數表示。
- 採用亮度正則化、L1 正則化和深度圖像結構和紋理相似性 (DISTS) 度量等技術來約束優化過程,確保生成的環境映射保持原始圖像的視覺一致性和感知品質。
主要發現
- 與直接優化像素值相比,使用 R-SIREN(具有穩健性的 SIREN)表示環境映射可以產生更高品質的重建結果,尤其是在反射表面上。
- 對抗式權重擾動有助於提高 SIREN 模型對逆向渲染過程中接收到的梯度更新的穩健性,從而產生更自然、更少偽影的環境映射。
- 亮度正則化、L1 正則化和 DISTS 度量的組合有效地約束了優化過程,確保生成的環境映射保持原始圖像的視覺一致性和感知品質。
主要結論
本研究提出了一種基於逆向渲染和對抗式隱函數的有效環境映射編輯方法。透過將環境映射表示為穩健的隱函數,並利用逆向渲染進行優化,該方法可以編輯環境映射的光源和陰影,同時保持背景完整性和視覺一致性。
意義
這項研究通過引入一種基於學習的方法來推進環境映射編輯領域,該方法解決了傳統方法在處理 HDR 圖像時遇到的挑戰。所提出的 R-SIREN HDR 方法為藝術家提供了一種強大的工具,可以精確控制和自定義環境映射,從而增強計算機圖形應用程序中的真實感和沉浸感。
局限性和未來研究方向
- 該方法依賴於反射材料進行有效的逆向渲染,這在缺乏此類信息的場景中可能會有問題。
- 未來的研究可以探索將 R-SIREN HDR 擴展到其他 3D 模型操作任務,例如材質編輯或場景重新照明。
- 研究更先進的正則化技術或將先驗知識納入優化過程,可以進一步提高生成環境映射的品質和真實感。
統計資料
在 1K 環境映射中,總共有 1024 × 512 = 524,288 個像素。
光源(如太陽)通常僅佔整個圖像的幾十個像素。
SIREN 模型訓練了 1500 個時期,每個圖像的平均訓練時間為 30 秒。
對抗式權重擾動採用了代理 Adam 優化器,學習率為 1×10−4,擾動大小為 γ = 0.01。
R-SIREN 模型具有 2 個輸入特徵、3 個輸出特徵、256 個隱藏特徵和 6 個隱藏層。
逆向渲染過程使用 Adam 優化器,學習率為 5×10−6,運行 400 次迭代。
引述
"Optimizing directly on the environment map pixel will lead to low-quality images due to the sparsity nature of the problem, producing new images that are off the manifold of the natural images."
"We propose to interpret the weights θ of neural implicit representations as a form of 'embedding' for the target image."
"Our approach can pave the way to interesting tasks, such as estimating a new environment map given a rendering with novel light sources, maintaining the initial perceptual features, and enabling brush stroke-based editing of existing environment maps."