本研究の目的は、テキストによる入力から、複数の同時に行われるアクションを表現する3Dヒューマンモーションを生成することである。従来の研究では、アクションの時間的な遷移を扱うことが主であったが、本研究では空間的な合成に焦点を当てている。
具体的には以下の手順で進められている:
実験の結果、提案手法SINCは、単一アクションモデルや単純な合成手法に比べて、同時アクションの生成において優れた性能を示すことが確認された。特に、GPT-3による身体部位情報の活用と、合成データの活用が有効であることが示された。
一方で、言語モデルの限界や評価指標の課題など、今後の改善の余地も指摘されている。今後は、空間的な合成だけでなく時間的な合成も含めた、より高度な3Dヒューマンモーション生成手法の開発が期待される。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Niko... lúc arxiv.org 03-27-2024
https://arxiv.org/pdf/2304.10417.pdfYêu cầu sâu hơn