Keskeiset käsitteet
本論文では、歩行者検索とクルマ検索の2つのサブタスクに問題を分割し、それぞれに最適な手法を提案することで、CVPR 2023 1st基礎モデルチャレンジ-Track2の課題を解決した。歩行者検索では属性分類とインクルージョン関係マッチングを導入し、クルマ検索ではカラー属性ベースの物体検出手法によるデータ拡張と細粒度な画像-テキスト整合性学習を行った。提案手法は最終的なB-boardテストで0.709の高スコアを獲得した。
Tiivistelmä
本論文は、CVPR 2023 1st基礎モデルチャレンジ-Track2の課題に対する解決策を提案している。
まず、歩行者検索とクルマ検索の2つのサブタスクに問題を分割した。
歩行者検索では以下の手法を提案した:
- 歩行者属性の多ラベル分類: 歩行者カテゴリ情報を十分に活用するため、属性分類を行った。
- インクルージョン関係マッチング: 同一カテゴリの画像-テキストペアが同じバッチ内に存在する場合、それらの特徴表現を近づけることで、細粒度な整合性を学習した。
クルマ検索では以下の手法を提案した:
- カラー属性ベースの画像拡張: クルマの色属性を物体検出手法で検出し、画像に色パッチを追加することで、色認識の精度を向上させた。
- 細粒度な画像-テキスト対比学習: 同一カテゴリの画像-テキストペアを近づけ、異なるカテゴリのペアを離すことで、細粒度な整合性を学習した。
最終的な評価では、提案手法が0.709のスコアを獲得し、優れた性能を示した。
Tilastot
歩行者検索タスクのトレーニングデータは90,000サンプル、テストデータは10,000サンプル
クルマ検索タスクのトレーニングデータは46,117サンプル、テストデータは7,611サンプル