本研究は、複合画像検索(CIR)タスクにおいて、生データレベルの多様なモーダル融合を提案している。従来のCIR手法は、特徴レベルの非線形な多様なモーダル融合を行っていたが、これにより融合された特徴がVLPモデルの元の埋め込み空間から逸脱し、最終的な画像検索性能を損なう可能性があった。
提案手法DQU-CIRは、まず2つの生データレベルの融合戦略を導入する。1つは、参照画像のテキスト記述と修正テキストを連結することで統一テキストクエリを生成する手法(text-oriented unification)であり、もう1つは、修正テキストに含まれるキーワードを参照画像に直接書き込むことで統一視覚クエリを生成する手法(vision-oriented unification)である。
その後、DQU-CIRは、2つの統一クエリの特徴を線形的に融合し、最終的な画像検索を行う。この線形融合戦略により、融合されたクエリ特徴がVLPモデルの元の埋め込み空間に留まり、画像検索性能の向上につながる。
実験の結果、DQU-CIRは4つの公開データセットにおいて、従来手法を大幅に上回る性能を示した。特に、ファッション分野のデータセットでは顕著な性能向上が確認された。これは、提案手法がVLPモデルの多様なモーダル符号化と相互モーダル整列能力を最大限に活用できたことによるものと考えられる。
Başka Bir Dile
kaynak içeriğinden
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Haokun Wen,X... : arxiv.org 04-25-2024
https://arxiv.org/pdf/2404.15875.pdfDaha Derin Sorular