Khái niệm cốt lõi
針對無參考圖像質量評估 (NR-IQA) 中數據集大小有限的問題,本文提出了一種名為 ATTIQA 的新型預訓練框架,該框架利用屬性感知預訓練從大型數據集中提取與質量相關的知識,從而構建用於 IQA 的通用表示,並在多個 IQA 數據集上實現了最先進的性能。
Tóm tắt
論文概述
本論文提出了一種名為 ATTIQA 的新型預訓練框架,旨在解決無參考圖像質量評估 (NR-IQA) 中數據集大小有限的問題。ATTIQA 利用屬性感知預訓練從大型數據集中提取與質量相關的知識,從而構建用於 IQA 的通用表示。
研究背景
深度學習在圖像質量評估 (IQA) 中的應用面臨著現有 IQA 數據集大小有限的挑戰。使用小型數據集從頭開始訓練 IQA 模型會遇到難以學習圖像質量的豐富表示的問題,這通常會導致性能下降和泛化能力差,從而限制了 IQA 在實際場景中的應用。
研究方法
ATTIQA 框架包含兩個主要組成部分:提示選擇和使用 CLIP 的偽標籤進行預訓練。
- 提示選擇:
- 使用大型語言模型 (LLM) 生成候選提示列表。
- 通過評估候選提示通過代理任務生成準確屬性評分的的能力,確定最適合用於生成圖像屬性評分的提示。
- 屬性感知預訓練:
- 使用 CLIP 和所選提示生成圖像屬性評分作為預訓練的偽標籤。
- 在此偽標籤數據上對 IQA 模型進行預訓練,並使用專用 IQA 數據集進行微調。
實驗結果
- ATTIQA 在多個 IQA 數據集(CLIVE、KonIQ-10k、SPAQ 和 FLIVE)以及圖像美學數據集 AVA 上均取得了最先進的性能。
- 在跨數據集驗證中,ATTIQA 表現出優於基準模型的泛化能力,在多數情況下均取得了最佳性能。
- 在數據效率設置下,ATTIQA 在數據集有限的環境中優於其他基於預訓練的方法。
應用
- 生成模型的指標: ATTIQA 可用作評估生成模型的指標,例如比較從同一文本提示生成的兩個圖像的質量。
- 圖像增強: ATTIQA 的 MOS 預測可用作強化學習的獎勵,以找到 ISP 的最佳參數,從而增強圖像質量。
結論
ATTIQA 是一種用於 IQA 的新型預訓練框架,它利用屬性感知預訓練來構建用於 IQA 的通用表示。實驗結果表明,ATTIQA 在多個 IQA 數據集上實現了最先進的性能,並在跨數據集驗證中表現出優異的泛化能力。
Thống kê
ATTIQA 在 KonIQ-10k 數據集上取得了最高的 SROCC 和 PLCC 分數,分別為 0.942 和 0.952。
在跨數據集驗證中,ATTIQA 在使用 KonIQ 數據集進行訓練並在 SPAQ 數據集上進行測試時,取得了 0.887 的 SROCC 分數,優於其他方法。
在數據效率設置下,ATTIQA 在僅使用 10% 的 CLIVE 數據集進行訓練時,取得了 0.820 的 SROCC 分數,優於其他基於預訓練的方法。
在生成模型的指標應用中,ATTIQA 在 pairwise 圖像比較任務中達到了 71.0% 的準確率,優於其他 IQA 方法。
在圖像增強應用中,ATTIQA 在與專家 C 的修圖結果進行比較時,獲得了 58% 的用戶偏好勝率。
Trích dẫn
"In this work, we introduce a novel pretraining framework for IQA, named “ATTIQA”, ATTribute-aware IQA, which exhibits enhanced generalization capabilities by effectively incorporating CLIP’s extensive knowledge and the scalability of large unlabeled datasets."
"Our approach achieves state-of-the-art performance on multiple IQA datasets and exhibits remarkable generalization capabilities."
"Leveraging these strengths, we propose several applications, such as evaluating image generation models and training image enhancement models, demonstrating our model’s real-world applicability."