核心概念
本研究は、テキストの説明から人物の動作を正確かつ一貫性のある方法で生成する新しいアプローチを提案する。
摘要
本研究は、テキストから人物の動作を生成する新しい手法「LGTM」を提案している。LGTM は以下の2つの主要な特徴を持つ:
- 部位ごとのテキスト分解と独立した部位エンコーダ
- 大規模言語モデルを使ってテキストを部位ごとに分解し、各部位の動作を独立して学習する。これにより、部位間の意味的な誤りを防ぐことができる。
- 全身動作の最適化
- 部位ごとに生成された動作を全身の動作最適化器で統合し、全身の一貫性と調和を確保する。
実験の結果、LGTMは従来手法に比べて、局所的な意味的精度と全身の一貫性が大幅に向上していることが示された。特に、部位ごとの意味的類似度が実データに近い値を示しており、テキストから正確な動作を生成できることが確認された。
統計資料
人物が左足で踏み出し、両手を上げる動作を生成できる。
人物が上半身を前に傾け、両手を顔に当てる動作を生成できる。
人物が右足を蹴り上げ、両手を振る動作を生成できる。
引述
"LGTM は部位ごとのテキスト分解と独立した部位エンコーダを導入することで、局所的な意味的精度を大幅に向上させている。"
"LGTM の全身動作最適化器は、部位ごとに生成された動作を統合し、全身の一貫性と調和を確保している。"
"実験の結果、LGTMは従来手法に比べて、局所的な意味的精度と全身の一貫性が大幅に向上していることが示された。"