EUFCC-CIRは、GLAM(博物館、図書館、文書館、美術館)コレクションの複合画像検索のためのデータセットである。EUFCC-340Kデータセットを基に、自動化されたプロセスとフィルタリングヒューリスティックスを使用して、クエリ画像、テキストモディファイア、関連ターゲット画像の豊富で多様なセットを作成した。
生データレベルの多様なモーダル融合を提案することで、VLPモデルの多様なモーダル符号化と相互モーダル整列能力を最大限に活用し、複合画像検索の性能を向上させる。
言語のみのトレーニングで効率的かつ高性能な複合画像検索モデルを提案する。