核心概念
本研究では、テキストによる入力を用いて、複数の同時に行われるアクションを表現する3Dヒューマンモーションを生成する手法を提案する。
摘要
本研究の目的は、テキストによる入力から、複数の同時に行われるアクションを表現する3Dヒューマンモーションを生成することである。従来の研究では、アクションの時間的な遷移を扱うことが主であったが、本研究では空間的な合成に焦点を当てている。
具体的には以下の手順で進められている:
- GPT-3を用いて、各アクションに関与する身体部位を抽出する。
- 抽出した身体部位情報を用いて、既存のモーションデータを組み合わせることで、新しい合成モーションを生成する。
- 生成した合成モーションデータを用いて、テキストからモーションを生成するモデル(SINC)を訓練する。
実験の結果、提案手法SINCは、単一アクションモデルや単純な合成手法に比べて、同時アクションの生成において優れた性能を示すことが確認された。特に、GPT-3による身体部位情報の活用と、合成データの活用が有効であることが示された。
一方で、言語モデルの限界や評価指標の課題など、今後の改善の余地も指摘されている。今後は、空間的な合成だけでなく時間的な合成も含めた、より高度な3Dヒューマンモーション生成手法の開発が期待される。
統計資料
同時に行われる2つのアクションを1つのモーションとして生成することができる。
単一アクションモデルに比べ、同時アクションの生成精度が向上する。
GPT-3による身体部位情報の活用と、合成データの活用が有効である。
引述
"本研究の目的は、テキストによる入力から、複数の同時に行われるアクションを表現する3Dヒューマンモーションを生成することである。"
"実験の結果、提案手法SINCは、単一アクションモデルや単純な合成手法に比べて、同時アクションの生成において優れた性能を示すことが確認された。"
"一方で、言語モデルの限界や評価指標の課題など、今後の改善の余地も指摘されている。"