Core Concepts
ユーザーのフィードバックを活用することで、CLIP画像エンコーダを用いた画像検索システムの精度を向上させることができる。
Abstract
本研究では、CLIP画像エンコーダと関連フィードバックを組み合わせたインタラクティブ画像検索システムを提案している。
まず、検索システムはクエリ画像を受け取り、データベースから類似画像を検索して返す。ユーザーはこれらの返された画像に対してバイナリフィードバック(好みか否か)を提供する。
検索システムはこのフィードバックを学習し、ユーザーの好みに合わせて更新された検索アルゴリズムを用いて、より好ましい画像を返す。
この手法により、ユーザーの多様な好みに適応でき、かつ画像エンコーダの事前学習を必要としない高精度な画像検索が可能となる。
実験では、カテゴリベースの画像検索、ラベルベースの画像検索、条件付き画像検索の3つの設定で評価を行った。その結果、提案手法は教師あり学習手法と比肩する性能を示し、ユーザーの好みに適応できることが確認された。
本研究は、CLIP と関連フィードバックを組み合わせることで、インタラクティブ画像検索の精度を大幅に向上させることができることを示している。
Stats
ユーザーのフィードバックの数が多いほど、検索精度(MAP@R)が高くなる傾向がある。
Quotes
"ユーザーの好みに適応でき、かつ画像エンコーダの事前学習を必要としない高精度な画像検索が可能となる。"
"提案手法は教師あり学習手法と比肩する性能を示し、ユーザーの好みに適応できることが確認された。"