本研究では、既存のText2Motionタスクの課題に取り組む。従来のデータセットは行動テキストのみを扱っていたが、本研究では行動テキストに加えてシーンテキストも扱うことで、より柔軟な人物動作生成を目指す。
具体的には以下の2つの段階からなる:
大規模言語モデル(LLM)を用いて、任意のシーンテキストから対応する行動テキストを抽出する。シーンテキストには行動を示す明示的な情報がないため、LLMの能力を活用して潜在的な行動を推定する。
抽出した行動テキストに基づいて、人物動作を生成する。行動テキストと動作の対応関係を学習したTransformerモデルを用いて、シーンテキストに対応する動作を生成する。
本研究では、既存のデータセットであるHumanML3Dを拡張し、シーンテキストを追加した新しいHumanML3D++データセットを構築した。さらに、提案手法の有効性を検証するため、複数の評価指標を用いて実験を行った。その結果、提案手法は既存手法と比較して優れた性能を示すことが確認された。
To Another Language
from source content
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Runqi Wang,C... : arxiv.org 04-24-2024
https://arxiv.org/pdf/2404.14745.pdfDaha Derin Sorular