Core Concepts
本研究では、ビデオフレームと属性セットを入力として、ビデオベースの歩行者属性認識をマルチモーダルな融合問題として定式化し、事前学習された多モーダル基盤モデルCLIPを効率的に微調整するための新しい時空間側チューニング戦略を提案する。
Abstract
本研究では、ビデオベースの歩行者属性認識を視覚-言語融合問題として定式化し、CLIP事前学習モデルを活用する新しいフレームワークVTFPAR++を提案した。具体的には以下の3つの主要な点がある:
CLIPビジョンエンコーダと時空間側ネットワークを組み合わせることで、ビデオフレームの空間的および時間的特徴を効率的に抽出および融合する。
属性セットを自然言語記述に変換し、CLIPテキストエンコーダを使用して言語特徴を抽出する。視覚特徴と言語特徴を多モーダルTransformerで融合し、最終的な属性予測を行う。
事前学習モデルのパラメータを固定し、軽量な時空間側ネットワークのみを微調整する新しい手法を提案する。これにより、パラメータ効率的な微調整を実現し、GPU メモリ消費、推論時間、精度を大幅に向上させることができる。
実験結果は、提案手法がMARS-Attribute、DukeMTMC-VID-Attributeデータセットの両方で最先端の性能を達成していることを示している。
Stats
歩行者の年齢が40歳未満である
歩行者は背中にリュックサックを背負っている
歩行者の上半身の色は赤である
Quotes
"ビデオフレームは歩行者属性を理解するためにより包括的な視覚情報を提供できるが、静止画像では不可能である。"
"既存のPAR手法はCNNをバックボーンネットワークとして使用しており、ピクセルレベルの大域的な関係を十分にモデル化できていない。"