核心概念
本文提出了一種名為 FreeMotion 的新型框架,利用多模態大型語言模型 (MLLMs) 根據自然語言指令合成開放式人體動作,無需任何動作捕捉數據。
摘要
概述
本研究論文介紹了一種名為 FreeMotion 的創新框架,該框架利用多模態大型語言模型 (MLLMs) 根據自然語言指令合成開放式人體動作,無需任何動作捕捉數據。
研究背景
傳統的人體動作合成方法依賴於動作捕捉 (MoCap) 數據,這些數據獲取成本高且難以涵蓋各種人體動作。近年來,多模態大型語言模型 (MLLMs) 在理解和適應開放式場景方面展現出非凡的能力,這促使研究人員探索利用 MLLMs 進行無需 MoCap 數據的人體動作合成。
研究方法
FreeMotion 將問題分解為兩個階段:
- 基於 MLLMs 的順序關鍵幀生成:
- 利用兩個專門的 GPT-4V 模型作為關鍵幀設計師和動畫師。
- 關鍵幀設計師將動作指令轉換為一系列低級別的關鍵幀表示,包括每個關鍵幀的全身描述和身體部位描述。
- 關鍵幀動畫師根據設計師提供的描述,利用預先定義的命令集調整人體模型的姿態,並通過視覺反饋進行迭代優化。
- 通過插值和動作跟踪進行動作填充:
- 對生成的關鍵幀序列進行線性插值,生成連續的動作幀。
- 採用基於 CVAE 的動作跟踪策略,結合基於 MLP 的環境感知世界模型,修正插值過程中可能出現的物理上不合理的姿態和過渡。
實驗結果
FreeMotion 在多項下游任務中展現出優異的性能,包括:
- 動作合成: 在 HumanAct12 數據集上優於傳統的數據驅動方法 (MDM [37] 和 MLD [6]),並在奧運體育動作合成方面超越了零樣本動作合成方法 (MotionCLIP [36] 和 AvatarCLIP [16])。
- 風格遷移: 能夠根據文本描述生成具有特定風格的動作,例如「快樂地跳躍」、「像老人一樣走路」。
- 人與場景互動: 能夠識別場景中的物體並生成與之互動的動作,例如坐在椅子上、躺在床上、伸手觸摸物體。
- 不規則地形行走: 能夠在不規則地形上行走,例如在石頭上行走。
研究結論
FreeMotion 框架證明了利用 MLLMs 進行無需動作捕捉數據的人體動作合成的可行性,為該領域的未來研究開闢了新的方向。
未來方向
- 探索更強大的姿態調整技術,例如使用神經網絡將自然語言描述映射到人體姿態。
- 研究如何處理更複雜的人體動作,例如舞蹈。
- 提高模型處理長文本指令的能力。
- 改善模型在接觸豐富的場景下的性能。
統計資料
FreeMotion 在 HumanAct12 數據集上的平均用户偏好得分為 46.50%,優於 MDM [37] 的 22.67% 和 MLD [6] 的 30.83%。
在奧運體育動作合成方面,FreeMotion 的平均用户偏好得分顯著高於 MotionCLIP [36] 和 AvatarCLIP [16]。
在風格遷移任務中,FreeMotion 的平均用户偏好得分為 58.67%,優於 MotionCLIP [36] 的 19.08% 和 AvatarCLIP [16] 的 22.25%。
在人與場景互動任務中,FreeMotion 在「坐下」、「躺下」和「伸手觸摸」三個任務上的成功率均達到 95%。
在不規則地形行走任務中,FreeMotion 在多個場景下的表現與 ALLSTEPS [42] 相當或更優。
引述
"In this work, we for the first time, without any motion data, explore open-set human motion synthesis using natural language instructions as user control signals based on MLLMs across any motion task and environment."
"Our method can potentially serve as an alternative to motion capture for collecting human motion data, especially when the cost of motion capture is huge (e.g., collecting human interaction with different scenes)."