Główne pojęcia
既存のビジョン言語データセットの不足を補うために、Flickr30K-CFQという新しいチャレンジデータセットが導入されました。LLMを使用したクエリ強化メソッドは、実世界のテキスト画像検索タスクの改善に効果的であることが示されています。
Streszczenie
インターネット上のマルチモーダル情報の爆発的な成長により、単一モードの検索ではインターネットアプリケーションの要件を満たすことができません。
既存のビジョン言語データセット(例:MS-COCO、Flickr30K)は、クエリ発話が厳格で不自然であるため、現実的なテキスト画像タスクに不十分です。
Flickr30K-CFQは、コンパクトかつ細分化されたクエリチャレンジデータセットであり、複数のクエリ内容とスタイルを考慮しています。
新しいLLMベースのクエリ強化メソッドは、既存のテキスト画像検索モデルにおけるクエリ理解性能を向上させます。
Introduction
テキスト画像検索は異なるデータモダリティ間で情報を取得するプロセスです。
従来の検索方法は異なるモダリティ用に独立した特徴抽出と特定の一致または類似性測定に焦点を当てていました。
大規模言語モデル(LLMs)の急成長により、多くの作業が事前学習済みモデルを使用して堅牢な表現と予測モデルを学習することを考えています。
Dataset Construction
Flickr30K-CFQは、グローバル記述や人工的な書面表現ではなく、人間らしい問い合わせスタイルに適応するコンパクトで断片化された記述を収集することを考えています。
Imagery TagやPhraseからTripleやFragmentへ変換する組み合わせ法も提案されています。
Experimental Results
既存手法ではFlickr30K-CFQ内でコンパクトまたは断片化されたクエリに対する回収性能が低下しており、新しい挑戦的な要素が存在します。
LLMベースのQuery-enhancedメソッドは効果的であり、公開データセットでも優れたパフォーマンスを示しています。
Statystyki
LLMに基づくQuery-enhancedメソッドが公開データセットおよびチャレンジセットFlickr30-CFQでそれぞれ0.9%以上および2.4%改善したことが示されました。