核心概念
言語のみのトレーニングで効率的かつ高性能な複合画像検索モデルを提案する。
要約
本論文は、複合画像検索(Composed Image Retrieval: CIR)タスクに対して、言語のみのトレーニングで効率的かつ高性能なモデルを提案している。
CIRタスクは、画像とテキストの複合クエリを入力として、関連する画像を検索するものである。従来のCIRアプローチは、クエリ画像、クエリテキスト、ターゲット画像の三つ組のデータセットが必要であり、これを収集するのは非常に困難である。
そこで本論文では、三つ組データセットを使わずに学習できる零距離学習型CIR(Zero-shot CIR: ZS-CIR)手法を提案する。具体的には、以下の3つの特徴を持つ:
- 言語のみのトレーニングを行う。これにより、効率的な学習と大規模なバックボーンモデルの利用が可能になる。
- 新しい自己教師あり学習手法「Self-Masking Projection (SMP)」を提案する。これにより、多様なテキスト入力を活用できる。
- 視覚特徴と言語特徴の差異を緩和するためのノイズ付加手法を提案する。
提案手法「LinCIR」は、CLIP ViT-Gバックボーンを用いて48分でトレーニングでき、4つのCIRベンチマークで最高性能を達成した。特に、監視学習手法を上回る性能を示した。
統計
提案手法LinCIRは、CLIP ViT-Gバックボーンを用いて48分でトレーニングできる。
LinCIRは、CLIP ViT-Lバックボーンを用いた場合、Pic2Wordの6倍、SERLEの8.4倍の高速なトレーニングが可能である。
LinCIRは、CLIP ViT-Gバックボーンを用いた場合、Pic2Wordの16.4倍、SERLEの17.6倍の高速なトレーニングが可能である。
引用
"LinCIR shows the best training time-performance trade-off. Moreover, Pic2Word and SEARLE show degenerated performances when scaling up the backbone size."
"LinCIR even outperforms the state-of-the-art supervised method [2] on FashionIQ."