任意のテキストから、適切な人物動作を生成することを目的とする。既存のデータセットでは行動テキストのみを扱っていたが、本研究では行動テキストに加えて、行動を示さないシーンテキストも扱うことで、より実用的な人物動作生成を実現する。