toplogo
Logg Inn

Flickr30K-CFQ: A Compact and Fragmented Query Dataset for Text-image Retrieval


Grunnleggende konsepter
既存のビジョン言語データセットの不足を補うために、Flickr30K-CFQという新しいチャレンジデータセットが導入されました。LLMを使用したクエリ強化メソッドは、実世界のテキスト画像検索タスクの改善に効果的であることが示されています。
Sammendrag
インターネット上のマルチモーダル情報の爆発的な成長により、単一モードの検索ではインターネットアプリケーションの要件を満たすことができません。 既存のビジョン言語データセット(例:MS-COCO、Flickr30K)は、クエリ発話が厳格で不自然であるため、現実的なテキスト画像タスクに不十分です。 Flickr30K-CFQは、コンパクトかつ細分化されたクエリチャレンジデータセットであり、複数のクエリ内容とスタイルを考慮しています。 新しいLLMベースのクエリ強化メソッドは、既存のテキスト画像検索モデルにおけるクエリ理解性能を向上させます。 Introduction テキスト画像検索は異なるデータモダリティ間で情報を取得するプロセスです。 従来の検索方法は異なるモダリティ用に独立した特徴抽出と特定の一致または類似性測定に焦点を当てていました。 大規模言語モデル(LLMs)の急成長により、多くの作業が事前学習済みモデルを使用して堅牢な表現と予測モデルを学習することを考えています。 Dataset Construction Flickr30K-CFQは、グローバル記述や人工的な書面表現ではなく、人間らしい問い合わせスタイルに適応するコンパクトで断片化された記述を収集することを考えています。 Imagery TagやPhraseからTripleやFragmentへ変換する組み合わせ法も提案されています。 Experimental Results 既存手法ではFlickr30K-CFQ内でコンパクトまたは断片化されたクエリに対する回収性能が低下しており、新しい挑戦的な要素が存在します。 LLMベースのQuery-enhancedメソッドは効果的であり、公開データセットでも優れたパフォーマンスを示しています。
Statistikk
LLMに基づくQuery-enhancedメソッドが公開データセットおよびチャレンジセットFlickr30-CFQでそれぞれ0.9%以上および2.4%改善したことが示されました。
Sitater

Viktige innsikter hentet fra

by Haoyu Liu,Ya... klokken arxiv.org 03-21-2024

https://arxiv.org/pdf/2403.13317.pdf
Flickr30K-CFQ

Dypere Spørsmål

この新しいCompact and Fragmented Query Dataset for Text-image Retrieval(Flickr30K-CFQ)は他のビジョン言語データセットとどう異なりますか?

Flickr30K-CFQは、従来のビジョン言語データセットと比較していくつかの重要な点で異なります。まず、Flickr30K-CFQはコンパクトで断片化されたクエリを含むように設計されており、一般的なキャプションではなく、イメージタグやフレーズ、トリプル、フラグメントといった多様なクエリ形式を提供しています。これによって、現実世界の状況に適した自然で多様性に富んだテキスト画像検索タスクをモデル化することが可能です。 さらに、既存の方法やモデルがこのようなコンパクトで断片化されたクエリに対して十分な性能を発揮しないことも示唆されています。従来のビジョン言語データセットでは単純すぎる問題設定であることが明らかになりました。そのため、Flickr30K-CFQはより挑戦的であり、現在のテキスト画像検索モデル向けの効果的な評価基準として利用可能です。
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star