核心概念
マルチモーダル情報を組み合わせて画像を正確に検索するための新しいアプローチを提案します。
摘要
この論文では、マルチモーダル情報を組み合わせて画像を検索する問題に焦点を当て、大規模なデータセットからトレーニング用のデータセットを自動的に構築するスケーラブルなパイプラインを導入します。Transformerベースの適応的集約モデルTransAggも提案され、異なるモダリティから情報を適応的に統合します。提案手法は既存の最先端モデルと比較して優れた性能を示し、ゼロショット状況での評価でも有効性が証明されました。
統計資料
提案手法は16Kトリプレットで38.10%のRecall@1と68.42%のRecall@5を達成しました。
Laion-CIR-LLMデータセットは32Kトリプレットで36.71%のRecall@1と67.83%のRecall@5を達成しました。
引述
"我々は、ゼロショット状況で既存の最先端(SOTA)モデルと同等以上の性能を発揮した。"
"提案手法は、異なるバックボーンやファインチューニングタイプにおいても一貫して良好な結果が得られた。"