本文提出了一種名為 FreeMotion 的新型框架,利用多模態大型語言模型 (MLLMs) 根據自然語言指令合成開放式人體動作,無需任何動作捕捉數據。
Generating multi-person interactions with precise spatial control using text-conditioned motion synthesis.