Conceitos essenciais
本研究では、Vision-Language Modelsを用いて画像の歪みを識別し、その情報を利用して画像の品質スコアを予測する説明可能なアプローチを提案する。
Resumo
本研究は、画像品質評価(BIQA)の問題に取り組む際、歪み識別の観点から接近している。主な目的は、CLIP等のVision-Language Modelsを用いて、画像の歪みの種類と強度を予測することである。その後、予測された歪みに基づいて画像の品質スコアを推定する。
具体的なアプローチは以下の通り:
- 歪みの名称ではなく、歪みの属性や効果に着目することで、より説明可能な歪み識別を実現する。大規模言語モデル(LLM)を用いて、各歪みの視覚的属性を自動的に抽出する。
- 1枚の画像に複数の歪みが存在する場合にも対応できるよう、100,000枚の多重歪み画像データセットを生成する。
- 歪みの属性確率のみを入力特徴として使用することで、レグレッサーのトランスペアレンシーを高める。
- 提案手法は、複数のデータセットにおいて最先端の性能を達成し、ゼロショット学習でも優れた一般化性を示す。
Estatísticas
画像の全体的な明るさが低下している。
画像の細部が柔らかく融合している。
画像にランダムな高コントラストのピクセルが現れている。
Citações
"本研究では、Vision-Language Modelsを用いて画像の歪みを識別し、その情報を利用して画像の品質スコアを予測する説明可能なアプローチを提案する。"
"提案手法は、複数のデータセットにおいて最先端の性能を達成し、ゼロショット学習でも優れた一般化性を示す。"