INQUIREは、専門家レベルのテキストクエリを用いて、500万枚の自然画像データセットiNat24から画像を検索する、難易度の高いベンチマークである。
既存のビジョン言語データセットの不足を補うために、Flickr30K-CFQという新しいチャレンジデータセットが導入されました。LLMを使用したクエリ強化メソッドは、実世界のテキスト画像検索タスクの改善に効果的であることが示されています。