本研究では、対話型画像検索システムを提案している。このシステムは、ユーザーのフィードバックに基づいて、クエリを段階的に改善することで、検索性能の向上を目指している。
具体的には以下の3つのステップから成る:
画像検索: 事前学習済みの視覚言語モデル(VLM)を用いて、テキストクエリと画像の類似度を計算し、上位の候補画像を検索する。
関連フィードバック: 人工的なユーザーエージェントを用いて、検索結果の関連性を判断する。
クエリ拡張: VLMを用いて、関連画像のキャプションを生成し、オリジナルのクエリに追加することで、より情報量の高いクエリを生成する。
さらに、大規模言語モデル(LLM)を用いて、生成されたクエリの冗長な情報を除去することで、クエリの質を高めている。
実験では、MSR-VTTデータセットを画像検索タスクに適応させた新しいデータセットを用いて評価を行っている。提案手法は、ベースラインと比較して10%以上の recall 向上を達成し、最先端の性能を示している。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Hongyi Zhu,J... في arxiv.org 04-30-2024
https://arxiv.org/pdf/2404.18746.pdfاستفسارات أعمق