Core Concepts
ユーザーのフィードバックに基づいて、視覚言語モデルを用いてクエリを段階的に改善することで、対話型画像検索の性能を向上させる。さらに、大規模言語モデルを用いてクエリの冗長な情報を除去することで、クエリの質を高める。
Abstract
本研究では、対話型画像検索システムを提案している。このシステムは、ユーザーのフィードバックに基づいて、クエリを段階的に改善することで、検索性能の向上を目指している。
具体的には以下の3つのステップから成る:
画像検索: 事前学習済みの視覚言語モデル(VLM)を用いて、テキストクエリと画像の類似度を計算し、上位の候補画像を検索する。
関連フィードバック: 人工的なユーザーエージェントを用いて、検索結果の関連性を判断する。
クエリ拡張: VLMを用いて、関連画像のキャプションを生成し、オリジナルのクエリに追加することで、より情報量の高いクエリを生成する。
さらに、大規模言語モデル(LLM)を用いて、生成されたクエリの冗長な情報を除去することで、クエリの質を高めている。
実験では、MSR-VTTデータセットを画像検索タスクに適応させた新しいデータセットを用いて評価を行っている。提案手法は、ベースラインと比較して10%以上の recall 向上を達成し、最先端の性能を示している。
Stats
提案手法は、ベースラインと比較して10%以上のrecall向上を達成した。
大規模言語モデルを用いたクエリ編集は、クエリの質を高め、検索性能の向上に寄与した。
Quotes
"ユーザーのフィードバックに基づいて、クエリを段階的に改善することで、検索性能の向上を目指している。"
"大規模言語モデルを用いて、生成されたクエリの冗長な情報を除去することで、クエリの質を高めている。"