Core Concepts
マルチモーダル大規模言語モデルを人物再同定タスクに適用する方法を提案する。複雑な指示設計の問題を解決するための共通指示アプローチと、大規模言語モデルの潜在的な画像特徴を直接活用するDirectReIDモジュールを導入する。
Abstract
本論文は、マルチモーダル大規模言語モデル(MLLM)を人物再同定(ReID)タスクに適用する方法を提案している。
まず、複雑で多様な指示設計の問題を解決するため、共通指示(Common Instruction)アプローチを導入する。これは、テキストと画像の入力に対して同一の継続テキストを生成するシンプルな指示設計で、LLMの本質的な能力を活用する。
次に、DirectReIDモジュールを提案する。これは、LLMから出力される潜在的な画像特徴ベクトルをReIDタスクに直接適用し、視覚エンコーダを最適化する。これにより、人物特徴の抽出が強化される。
実験結果から、提案手法であるMLLMReIDは既存手法と比較して優れた性能を示すことが分かった。特に大規模なMSMT17データセットでは、mAPとRank-1スコアが大幅に向上している。これは、Common Instructionによる指示設計の簡素化と、DirectReIDによる潜在特徴の有効活用が功を奏したためと考えられる。
全体として、本研究はMLLMをReIDタスクに適用する新しい方法論を提示し、その有効性を実証している。提案手法は人物再同定分野における新たな可能性を示唆するものである。
Stats
人物再同定タスクにおいて、提案手法MLLMReIDは既存手法と比較して以下の性能向上を示した:
MSMT17データセット:
mAP: 76.8% (+4.1% 向上)
Rank-1: 90.9% (+2.6% 向上)