この論文では、マルチモーダル情報を組み合わせて画像を検索する問題に焦点を当て、大規模なデータセットからトレーニング用のデータセットを自動的に構築するスケーラブルなパイプラインを導入します。Transformerベースの適応的集約モデルTransAggも提案され、異なるモダリティから情報を適応的に統合します。提案手法は既存の最先端モデルと比較して優れた性能を示し、ゼロショット状況での評価でも有効性が証明されました。
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Yikun Liu,Ji... um arxiv.org 03-07-2024
https://arxiv.org/pdf/2306.07272.pdfTiefere Fragen