核心概念
自然に発生する同一ウェブページ上の画像ペアには多様な暗黙的な関係が含まれており、大規模な多モーダルモデルとLanguage Modelを使ってそれらの関係を明示的に表現することで、オープンエンドの指示に基づく高精度な画像検索が可能になる。
要約
本論文は、オープンエンドの指示に基づく画像検索の新しいアプローチを提案している。
- 同一ウェブページ上に自然に存在する画像ペアには、視覚的な類似性以外にも様々な暗黙的な関係が含まれている。
- 大規模な多モーダルモデルとLanguage Modelを使って、これらの画像ペアの関係を明示的に表現したトリプレット(クエリ画像、指示文、ターゲット画像)を大量に合成する。
- この合成データを使って、クエリ画像と指示文から適切なターゲット画像を検索するデュアルエンコーダモデル「MagicLens」を自己教師あり学習する。
- MagicLensは、従来のSOTA手法と比べて50倍小さなモデルサイズでありながら、複数のベンチマークで優れた性能を示す。
- 1.4Mの大規模な画像コーパスを用いた人間評価実験では、MagicLensが視覚的な類似性を超えた複雑な検索意図を高い精度で満たすことが示された。
統計
同一ウェブページ上の画像ペアから36.7Mのトリプレットデータを構築した。
従来の合成データ(18M)と比べ、自然な画像関係と高品質の指示文を含む。
引用
"自然に発生する同一ウェブページ上の画像ペアには多様な暗黙的な関係が含まれている。"
"大規模な多モーダルモデルとLanguage Modelを使って、これらの画像ペアの関係を明示的に表現したトリプレットデータを大量に合成する。"
"MagicLensは、従来のSOTA手法と比べて50倍小さなモデルサイズでありながら、複数のベンチマークで優れた性能を示す。"