核心概念
大規模言語モデル(LLM)の外観理解能力を活用し、言語由来の外観要素をペデストリアン検出器に統合することで、視覚的手がかりと組み合わせて、ペデストリアンの認識を効果的に行う。
要約
本論文は、大規模言語モデル(LLM)の外観理解能力を活用し、ペデストリアンの多様な外観を表す記述コーパスを構築する。LLMにこのコーパスを入力することで、外観の変化を表す豊富な知識セットを抽出する。その中から代表的な外観知識要素を選び出し、ペデストリアン検出タスクに関連付けることで、言語由来の外観要素を得る。
この言語由来の外観要素を視覚的手がかりと統合することで、ペデストリアンの認識精度を大幅に向上させることができる。
実験では、様々なペデストリアン検出フレームワークに提案手法を適用し、CrowdHuman及びWiderPedestrianベンチマークにおいて、最先端の性能を達成している。
統計
ペデストリアンの外観を表す記述の例:
"A low resolution rendering of a small person wearing a yellow jacket."
"A cropped photo of a short girl wearing a yellow t-shirt."
背景物体の外観を表す記述の例:
"A close-up rendering of a horse."
"A photo of a lamp post."