核心概念
AIによって生成された画像の質を評価するには、画像の品質と画像-テキストの対応関係の両方を考慮する必要がある。提案するIP-IQAフレームワークは、画像とテキストプロンプトを同時に処理し、両者の関係を理解することで、より包括的な評価を実現する。
要約
本研究では、AIによって生成された画像(AGI)の質を評価するための新しいフレームワークIP-IQAを提案している。AGIは本来マルチモーダルな性質を持つため、従来の画像品質評価(IQA)手法では不十分である。
具体的には以下の3つの貢献がある:
- Image2Promptと呼ばれる増分プリトレーニング手法を提案し、AGIとそれに対応するテキストプロンプトの理解を深化させる。
- 画像とプロンプトの融合モジュールと特別な[QA]トークンを導入し、両者の効果的な統合を実現する。
- 提案手法IP-IQAは、AGIQA-1kとAGIQA-3kデータセットにおいて最先端の性能を達成する。
実験結果から、提案手法がAGIの品質と画像-テキストの対応関係を包括的に評価できることが示された。今後の課題として、画像とプロンプトの深い関係性の考慮が挙げられる。
統計
従来のIQA手法はAGIの画像-テキスト対応を適切に評価できず、実際の主観品質スコアよりも高い評価をする傾向がある。
提案手法IP-IQAは、AGIQA-1kデータセットでPLCC 0.8922、SRCC 0.8401を達成し、従来手法を2.1%上回る。
AGIQA-3kデータセットでは、PLCC 0.9116、SRCC 0.8634と、従来手法を2.4%上回る。