本研究は、テキストの説明から人物の動作を正確かつ一貫性のある方法で生成する新しいアプローチを提案する。
マスクされた人物動作トークンを並列的かつ段階的に予測することで、高品質かつ高速な人物動作生成を実現する。さらに、動作の部分編集や長シーケンス生成などの高度な編集機能も備える。