核心概念
マルチモーダル学習可能クエリを利用して、画像とユーザコメントの両方から美的特徴を効率的に抽出し、新しい最先端の画像美的評価性能を達成する。
摘要
本論文では、マルチモーダル学習可能クエリ(MMLQ)を提案している。MMLQは、凍結された視覚および言語エンコーダから事前学習された特徴を活用し、画像とユーザコメントの両方から美的特徴を効率的に抽出する。
具体的には以下の通り:
- 視覚および言語の学習可能クエリを用いて、事前学習された視覚および言語特徴から美的特徴を抽出する
- マルチモーダル相互作用ブロックを適切に設計することで、マルチモーダル美的特徴を効率的に処理
- 広範な実験の結果、提案手法はマルチモーダル画像美的評価の新しい最先端性能を達成
提案手法の主な特徴は以下の通り:
- 事前学習された視覚および言語エンコーダを活用し、追加の属性ラベル不要で美的特徴を抽出
- 限られた数のマルチモーダル相互作用ブロックと学習可能クエリで十分な美的特徴を捕捉
- ユーザコメントの一部しか利用できない場合でも優れた性能を発揮
统计
画像の美的評価スコアは1から10の範囲で与えられる
画像1枚あたり平均210人の評価者からスコアが付与される
画像の美的評価スコアの分布は累積密度関数(CDF)で表現される
引用
"コメントのキーワードは'素晴らしい'、'魔法的'、'愛している'のように強い感情を表しており、画像の美的評価に役立つ可能性がある。"
"事前学習された大規模モデルは、下流タスクのための豊かな転移可能な知識を提供する強力な能力を示している。学習可能クエリとプロンプトは、そのような事前学習バックボーンから有用なタスク固有の特徴を抽出する効果的な方法として示されている。"