本研究では、テキストに基づく人間の動作生成において、細かい記述を活用することで、元のデータセットの範囲を超えた動作を生成することを目的としている。
具体的には以下の取り組みを行っている:
ChatGPTを用いて、人間の動作を記述したテキストを細かい記述に書き換える。これにより、動作の本質をより正確に捉えることができる。
細かい記述を活用して、トランスフォーマーベースの拡散モデルを訓練する。モデルは、全体的な記述と各部位の記述の両方を考慮して動作を生成する。
実験の結果、提案手法は既存手法に比べて、元のデータセットの範囲を超えた動作を生成する能力が高いことが示された。特に、定性的な評価やユーザスタディでその優位性が確認された。
細かい記述を活用することで、モデルが動作の本質をより深く理解できるようになり、ゼロショット生成の性能が向上したと考えられる。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問