Core Concepts
大規模言語モデル(LLM)を使用して、動作シーケンスと歩行パターンの詳細な言語的記述を生成し、動作表現と高レベルの言語的手がかりを整合化する。
Abstract
本研究では、大規模言語モデル(LLM)を活用して、動作シーケンスと歩行パターンの詳細な言語的記述を生成し、動作表現と高レベルの言語的手がかりの整合化を探索しています。
具体的には以下の2つのタスクに取り組んでいます:
動作認識: BABEL-60データセットの動作に対して、LLMを使用して詳細な言語的記述を生成し、動作シーケンスと言語表現の整合化を図る。
歩行パターンの検索: DenseGaitデータセットの歩行シーケンスについて、外見の属性に基づいた言語的記述を生成し、歩行パターンと外見の関係性を探る。
LLMの表現力を活用することで、構造化された動作属性を拡張し、マルチモーダルな表現の整合化を実現しています。この取り組みは、包括的な動作理解の進展に寄与し、LLMを活用したマルチモーダルな整合化やモーション分析のためのデータ拡張に新しい可能性を開いています。
Stats
動作認識タスクでは、提案手法がTop 1精度で52.52%、Top 5精度で68.83%を達成し、既存手法を上回る結果を示しました。
歩行パターン検索タスクでは、提案手法がNDCG@5スコアで平均60%を達成し、ランダムベースラインを大きく上回りました。特に、歩行方向、性別、年齢、服装、靴などの属性で高い性能を示しました。
Quotes
"LLMの表現力を活用することで、構造化された動作属性を拡張し、マルチモーダルな表現の整合化を実現しています。"
"この取り組みは、包括的な動作理解の進展に寄与し、LLMを活用したマルチモーダルな整合化やモーション分析のためのデータ拡張に新しい可能性を開いています。"