本研究では、TeSMoと呼ばれる手法を提案している。TeSMoは、テキストプロンプトに基づいて、3Dシーン内で人間が自然に移動し、物体と相互作用するモーションを生成する。
まず、大規模な動作キャプチャデータセットを使って、テキストから人間の動作を生成するベースとなる汎用的な拡散モデルを事前学習する。その後、3Dシーンの情報を入力として受け取る追加のブランチを微調整することで、シーンに適応した動作を生成できるようにする。
具体的には、ナビゲーション部分では、2Dフロアマップを入力として、障害物を回避しながら目標位置に到達する動作を生成する。その後、相互作用部分では、開始姿勢と目標位置、そして3D物体の形状を入力として、物体との自然な接触を伴う動作を生成する。
実験の結果、提案手法は既存手法と比べて、ナビゲーションの目標到達精度が高く、物体との接触が自然な相互作用動作を生成できることが示された。さらに、テキストプロンプトによる動作スタイルの制御も可能である。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies