核心概念
テキストプロンプトと物体メッシュを入力として、物体の軌道や初期手姿勢を必要とせずに、多様な手-物体相互作用の3D動作を生成する。
要約
本論文は、テキストプロンプトから3D手-物体相互作用の動作シーケンスを生成する初めての手法を提案する。
手-物体接触マップの生成と手-物体動作の生成という2つのサブタスクに分解することで、限られたデータからも一般的で物理的に妥当な手-物体相互作用をモデル化できる。
接触マップ生成ネットワークは、テキストと物体メッシュから手と物体の接触確率を予測する。物体の局所幾何構造を学習するため、物体カテゴリに依存せずに一般物体に適用可能。
動作生成モデルは、予測された接触マップを強いプライオリとして利用し、テキストプロンプトに基づいて物理的に妥当な手-物体動作を生成する。
手の姿勢を物体表面に沿って最適化する手リファイナーモジュールを導入し、接触の時間的安定性と貫通アーティファクトを抑制する。
実験では、提案手法が既存手法に比べて、より現実的で多様な手-物体相互作用を生成できることを示す。未知の物体にも適用可能。
統計
手と物体の3D相対姿勢の誤差を最小化する損失関数を使用している。
手と物体の接触距離に基づいた損失関数を使用している。
手と物体の接触領域を表す確率マップを生成している。
引用
"手に林檎を両手で渡す。"
"右手で箱を開ける。"