核心概念
LoFi 是一種基於坐標的局部圖像重建框架,它利用隱式神經表示,僅使用局部信息即可有效地重建圖像,並在內存使用和泛化能力方面具有顯著優勢。
摘要
本研究提出了一種名為 LoFi(局部場)的圖像重建框架,該框架基於坐標,利用隱式神經表示(INR)來解決圖像逆問題。與傳統方法不同,LoFi 使用多層感知器(MLP)分別處理每個坐標的局部信息,從而以任何連續坐標恢復對象。LoFi 在圖像重建方面表現出與標準 CNN 相當或更好的性能,並且在內存使用和泛化能力方面具有顯著優勢。
主要內容
背景
圖像逆問題的目標是從噪聲測量中恢復目標圖像,這在醫學、材料科學和宇宙學等領域中很常見。深度學習,特別是卷積神經網絡(CNN),已被廣泛應用於解決逆問題。然而,對於高維圖像,深度學習架構在計算上可能變得非常昂貴。
LoFi 架構
LoFi 是一種基於坐標的局部重建管道,它利用局部信息來恢復每個像素的圖像強度。該模型使用神經網絡(由 MLP 模塊組成)來處理從輸入圖像中提取的局部信息,從而能夠以任何分辨率或任意連續坐標進行圖像重建。
LoFi 的優勢
可擴展性: LoFi 的基於坐標的設計允許在對象和像素的小批量數據上進行訓練,從而實現與分辨率無關的內存使用。
泛化能力: LoFi 的局部設計為圖像重建提供了強大的歸納偏差,使其能夠在非常小的數據集上有效執行,而不會出現過擬合或需要正則化。
可解釋性: LoFi 的坐標條件補丁幾何形狀允許學習輸入圖像中相關特徵的位置,從而為下游圖像分析和解釋提供見解。
實驗結果
研究人員在一系列成像模式中驗證了 LoFi 框架,包括低劑量計算機斷層掃描(LDCT)、圖像去噪和宇宙學中的暗物質映射。結果表明,LoFi 在這些任務中取得了與標準 CNN 相當或更好的性能,同時顯著減少了計算成本和內存需求。
局限性和未來方向
儘管 LoFi 的基於像素的管道顯著減少了內存需求,但它也有一些局限性。與 INR 類似,LoFi 在推理過程中隨圖像分辨率的增加,計算成本呈二次方增長。未來的研究方向可能包括探索提高 LoFi 推理效率的策略。
统计
LoFi 在 1024 × 1024 圖像上訓練僅需 3GB 內存,比標準 CNN 通常所需的內存少 20 多倍。
在僅包含 9 個訓練樣本的小型數據集上,LoFi 顯示出強大的泛化能力,而 CNN 則表現出嚴重的過擬合。