UniMotionは、グローバルなテキスト入力、ローカルなフレームレベルのテキスト入力、または動作シーケンスなど、さまざまな条件入力に対応できる柔軟な多モーダルモデルである。これにより、従来の研究では個別に扱われていた、フレームレベルのテキストから動作への変換、シーケンスレベルのテキストから動作への変換、動作からテキストへの変換などのタスクを、単一のモデルで統一的に扱うことができる。さらに、UniMotionは、動作とフレームレベルのテキストの同時生成など、これまで検討されていなかった新しいタスクにも対応できる。
UniMotionの主な特徴は以下の通り:
UniMotionは、HumanML3Dデータセットのフレームレベルのテキストから動作への変換タスクにおいて、最先端の性能を達成している。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問