Core Concepts
マルチモーダルLLMを活用して、画像や文章から3D人間ポーズを理解し、推論する手法を提案する。
Abstract
本研究では、ChatPoseと呼ばれるマルチモーダルLLMを提案しています。ChatPoseは、LLMにSMPLポーズを組み込むことで、画像や文章から3D人間ポーズを理解し、生成することができます。
具体的な特徴は以下の通りです:
LLMにSMPLポーズを表す特殊トークンを導入し、LLMがSMPLポーズを出力できるようにする。
SMPLポーズ予測用のプロジェクション層を追加し、LLMの出力から直接SMPLポーズパラメータを生成する。
従来の人間ポーズ推定や生成タスクに加え、推論を必要とする新しいタスクを提案する:
推論に基づくポーズ推定 (RPE): 画像全体の文脈情報を活用し、人物の特徴に基づいてポーズを推定する。
推測的ポーズ生成 (SPG): 人物の状態変化に応じたポーズを推測して生成する。
提案手法であるChatPoseは、従来手法と比較して優れた性能を示す。特に、推論を必要とするタスクでその優位性が発揮される。
このように、ChatPoseはLLMにSMPLポーズを組み込むことで、3D人間ポーズの理解と推論を可能にしています。これにより、人間ポーズ分析に新しい可能性を開くことができます。
Stats
人が片膝をついて、上半身を前かがみにしている。
人が左足を前に伸ばし、右足を軽く曲げて立っている。
Quotes
"この人は靴ひもを結ぶ動作をしているように見える。"
"この人は障害物や水たまりを慎重に踏み越えようとしているようだ。"