核心概念
本文提出了一種利用遮罩圖像建模(Mask Image Modeling, MIM)的新方法,能夠從各種受損圖像中提取固有的圖像信息,實現更加平衡和強大的全方位圖像修復。
摘要
本文提出了一種名為"Restore Anything with Masks (RAM)"的新管道,用於從受損圖像中提取固有的圖像信息。該管道包括兩個階段:
-
遮罩圖像預訓練階段:
- 隨機遮罩受損圖像的像素,並要求網絡預測對應的清晰圖像,從而提取受損圖像中的固有信息。
- 採用細粒度的遮罩(1x1像素)和50%的遮罩比例,有助於保留圖像的局部細節。
-
基於遮罩屬性導電性(MAC)的微調階段:
- 分析每個網絡層在解決輸入完整性差距方面的重要性,根據MAC值對層進行排序。
- 選擇最關鍵的top-k%層進行微調,以彌補輸入完整性差距,同時最大限度地保留MIM預訓練學習到的圖像先驗。
實驗結果表明,該方法在各種圖像修復任務上都能取得最佳或接近最佳的性能,並且在某些任務上如去霧和低光增強方面有顯著提升。此外,通過微調少量關鍵層(如10%),也能達到接近最佳的整體性能,體現了良好的效率和泛化能力。
統計資料
在SOTS去霧數據集上,我們的方法PSNR為29.64dB,SSIM為0.9695,優於其他方法。
在Rain13k-Test雨水去除數據集上,我們的方法PSNR為28.47dB,SSIM為0.8751,優於其他方法。
在GoPro運動模糊數據集上,我們的方法PSNR為28.02dB,SSIM為0.8592,優於其他方法。
在LOL低光增強數據集上,我們的方法PSNR為24.46dB,SSIM為0.8581,優於其他方法。
引述
"本文提出了一種利用遮罩圖像建模(MIM)的新方法,能夠從各種受損圖像中提取固有的圖像信息,實現更加平衡和強大的全方位圖像修復。"
"我們設計了一種針對全方位圖像修復特別設計的簡單遮罩預訓練方法,增強網絡優先提取各種受損圖像中的圖像內容先驗,從而實現更加平衡的性能。"
"為了彌補輸入完整性差距,同時最大限度地保留MIM預訓練學習到的圖像先驗,我們提出了基於遮罩屬性導電性(MAC)的微調策略,只微調最關鍵的top-k%層。"