Khái niệm cốt lõi
INQUIREは、専門家レベルのテキストクエリを用いて、500万枚の自然画像データセットiNat24から画像を検索する、難易度の高いベンチマークである。
本稿では、自然画像の大規模データセットを用いた、専門家レベルのテキスト画像検索ベンチマークであるINQUIREを紹介します。INQUIREは、生態学や生物多様性に関する専門家レベルの250件のクエリと、500万枚の自然画像データセットiNat24で構成されています。各クエリはiNat24内の関連するすべての画像と紐付けられており、合計で33,000件の一致データが存在します。
INQUIREの目的
INQUIREは、既存の画像検索システムでは対応が難しい、専門家レベルの知識や高度な画像理解を必要とする検索タスクを提供することで、テキスト画像検索技術の向上を目的としています。具体的には、以下の2つの課題に取り組むことを目指しています。
専門分野における高精度な検索の実現: 生物多様性モニタリングや生物医学画像など、専門性の高い分野では、微妙な違いを認識し、専門用語を含むクエリを理解できる検索システムが求められます。INQUIREは、このような専門分野における高精度な検索の実現を促進します。
科学的発見の加速: 自然界の画像データは膨大に存在しますが、その分析には時間と専門知識を要するため、科学者がその価値を十分に活用できていません。INQUIREは、高精度な画像検索システムの開発を促進することで、科学者が膨大な画像データから必要な情報を効率的に取得し、科学的発見を加速することを目指しています。
INQUIREの構成要素
iNat24データセット: iNaturalistプラットフォームから収集された、10,000種、500万枚の自然画像データセットです。市民科学者によって収集・アノテーションされた画像で構成されており、多様な生物種や状況を網羅しています。
専門家レベルのクエリ: 生態学者、生物学者、鳥類学者、昆虫学者、海洋学者、林業専門家など、様々な専門家との議論や、生態学に関する学術文献のレビューを通じて収集された、250件の専門性の高いクエリで構成されています。これらのクエリは、生物種、行動、状況、外観など、多岐にわたるカテゴリに分類され、それぞれが高度な画像理解と専門知識を必要とします。
INQUIREの評価タスク
INQUIREでは、以下の2つの検索タスクを評価します。
INQUIRE-FULLRANK: 500万枚のiNat24データセット全体から関連する画像を検索する、エンドツーエンドの検索タスクです。
INQUIRE-RERANK: CLIP ViT-H-14を用いて事前に検索された上位100件の画像を、より高度なモデルで再ランク付けするタスクです。
INQUIREの貢献
INQUIREは、自然画像の大規模データセットと専門家レベルのクエリを提供することで、テキスト画像検索技術、特に専門性の高い分野における検索技術の向上に大きく貢献すると期待されています。
Thống kê
INQUIREは250件の専門家レベルのクエリで構成されている。
各クエリは、iNat24データセット内の関連するすべての画像と紐付けられている。
合計で33,000件の一致データが存在する。
iNat24データセットは、10,000種、500万枚の自然画像データセットである。
クエリは、生物種、行動、状況、外観など、多岐にわたるカテゴリに分類される。
INQUIRE-RERANKタスクでは、CLIP ViT-H-14を用いて事前に検索された上位100件の画像を再ランク付けする。