Core Concepts
言語コマンドに基づいて、人物と環境の多様な相互作用を統一的に制御する。
Abstract
本論文は、人物-シーン相互作用(HSI)の統一的な制御フレームワークであるUniHSIを提案する。UniHSIは、言語コマンドを入力として受け取り、人物と環境の多様な相互作用を実現する。
UniHSIの主な特徴は以下の通りである:
相互作用を「接触の連鎖(CoC)」として定義し、人物の関節と物体の部位の接触ペアの順序として表現する。これにより、多様な相互作用を統一的に扱うことができる。
大規模言語モデル(LLM)を用いたプランナーにより、言語コマンドをCoC形式の行動計画に変換する。
統一コントローラーにより、CoC形式の行動計画を物理シミュレーションに基づいて実行する。これにより、全身の関節と任意の物体部位の制御を実現し、細かな制御と複数物体の相互作用を可能にする。
相互作用の注釈付きデータセットを必要とせず、LLMによって生成されたCoC計画に基づいて学習できる。これにより、多様な相互作用の学習が容易になる。
実験の結果、UniHSIは言語コマンドに基づいて多様な相互作用を実現し、実スキャンシーンでの一般化性も示した。これは、HSIシステムの実用化に向けた重要な一歩となる。
Stats
人物の関節と物体の部位の接触ペアの誤差は、簡単なタスクで0.038、中程度のタスクで0.073、難しいタスクで0.101である。
簡単なタスクでは平均2.3ステップ、中程度のタスクで4.5ステップ、難しいタスクで6.1ステップ成功した。
Quotes
「人物-シーン相互作用は、エンボディドAIやバーチャルリアリティなどの分野で重要な要素である。」
「相互作用自体には、人物の関節と物体の部位の接触領域という強い前提がある。」
「UniHSIは、言語コマンドに基づいて多様な相互作用を実現する最初の統一的なフレームワークである。」