本論文は、画像品質評価(IQA)のための革新的なマルチモーダルプロンプト学習フレームワークMP-IQEを提案している。従来のCLIP-IQAやCLIP-IQA+では、CLIPモデルの一般性により、IQA固有のタスクに最適化されていないという課題があった。
提案手法MP-IQEでは以下の2つの工夫を行っている:
テキストブランチでは、シーンカテゴリープロンプトと歪みタイププロンプトの2種類のプロンプトを導入し、画像の文脈情報と品質情報を効果的に抽出する。
ビジュアルブランチでは、各層にプロンプトを挿入する深層プロンプト学習を行い、画像特徴の表現力を高める。
これらの工夫により、テキストと画像の特徴を適切に整合させ、IQA固有の意味情報を効果的に捉えることができる。
実験結果では、提案手法MP-IQEが既存手法を大きく上回る性能を示しており、特にCSIQとKADIDデータセットでは従来手法を1.5%と1.1%も上回る高いSRCC値を達成している。また、少ないデータでも高い精度を維持できる優れた汎化性能も確認された。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor