本論文では、EUFCC-CIRと呼ばれる新しいデータセットを紹介する。このデータセットは、GLAM(博物館、図書館、文書館、美術館)コレクションにおける複合画像検索(CIR)タスクを対象としている。
EUFCC-CIRは、EUFCC-340Kデータセットに基づいて構築されている。EUFCC-340Kは、ヨーロッパの文化遺産コレクションから収集された346,000枚以上の注釈付き画像を含む。各画像にはGETTY美術・建築用語集(AAT)に基づいた詳細なメタデータが付与されている。
EUFCC-CIRの構築プロセスでは、同じ"オブジェクトタイプ"の画像で"素材"属性が異なるもの、または逆のものを特定し、それらを利用してクエリ画像、テキストモディファイア、ターゲット画像のトリプレットを生成している。これにより、CIRタスクに不可欠な意味のある違いを捉えることができる。ヒューリスティックスとフィルタリングを適用することで、データセットの多様性と品質を高めている。
データセットは、トレーニング、検証、2つのテストセットに分割されており、CIRモデルの包括的な評価と比較が可能となっている。
EUFCC-CIRデータセットの有用性は、定性的および定量的な分析を通じて実証されている。その結果は、CIRがGLAMコレクションとの対話方法を変革し、より深い洞察を提供し、アクセシビリティを向上させる可能性を示唆している。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania