本論文は、複合画像検索(Composed Image Retrieval: CIR)タスクに対して、言語のみのトレーニングで効率的かつ高性能なモデルを提案している。
CIRタスクは、画像とテキストの複合クエリを入力として、関連する画像を検索するものである。従来のCIRアプローチは、クエリ画像、クエリテキスト、ターゲット画像の三つ組のデータセットが必要であり、これを収集するのは非常に困難である。
そこで本論文では、三つ組データセットを使わずに学習できる零距離学習型CIR(Zero-shot CIR: ZS-CIR)手法を提案する。具体的には、以下の3つの特徴を持つ:
提案手法「LinCIR」は、CLIP ViT-Gバックボーンを用いて48分でトレーニングでき、4つのCIRベンチマークで最高性能を達成した。特に、監視学習手法を上回る性能を示した。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Geonmo Gu,Sa... at arxiv.org 04-02-2024
https://arxiv.org/pdf/2312.01998.pdfDeeper Inquiries