Core Concepts
スケッチベースの画像検索(SBIR)では、手描きのスケッチと対応する写真を関連付けることが目的である。本研究では、未知のカテゴリに対する精細な検索を可能にするため、双方向プロンプティング戦略を提案する。具体的には、ターゲットカテゴリの画像とテキストラベルを利用して、モデルにカテゴリ固有の洞察を与え、ターゲットカテゴリに適応させることで、精細な検索精度を向上させる。
Abstract
本研究の目的は、スケッチベースの画像検索(SBIR)における2つの主要な課題に同時に取り組むことである。
ゼロショット学習:未知のカテゴリに対応する検索
精細な検索:同一カテゴリ内の個体レベルの検索
従来のアプローチは、限られたカテゴリから一般化された知識を獲得し、それを直接未知のカテゴリに適用するが、これは最適ではない。なぜなら、既知カテゴリで有効な知識が、未知カテゴリに対して無効あるいは有害となる可能性があるためである。
そこで本研究では、双方向プロンプティング戦略を提案する。具体的には、ターゲットカテゴリの画像とテキストラベルを利用して、モデルにカテゴリ固有の洞察を与え、ターゲットカテゴリに適応させる。
視覚プロンプティングモジュール:ターゲットカテゴリの画像から、カテゴリ固有の視覚プロンプトを生成し、モデルに注入する。
テキストプロンプティングモジュール:ターゲットカテゴリのテキストラベルから、カテゴリ固有のチャンネルスケーリングベクトルを生成し、視覚エンコーダに適用する。
これらの設計により、提案手法は既存の最先端手法を7.3%のAcc.@1で上回る性能を達成した。さらに、カテゴリレベルのゼロショットSBIRタスクでも良好な結果を示した。
Stats
手描きスケッチと対応する写真の間の大きな同一性距離と小さな同一性距離の存在
プロペラの有無がプレーンの識別に有効だが、ヘリコプターの識別には不適切
Quotes
一般化の観点から問題に取り組むだけでは不十分かもしれない。なぜなら、限られた既知カテゴリから蓄積された知識は、未知のターゲットカテゴリに対して完全に有益または転用可能ではない可能性があるためである。