核心概念
DART 是一種基於擴散的自動迴歸運動原語模型,能夠根據文本提示和空間約束實時生成逼真且可控的人體運動序列。
研究目標:
本研究旨在解決現有文本驅動的人體運動生成方法的局限性,這些方法通常只能生成基於單個輸入語句的短而孤立的動作,而無法生成長時間、複雜且精確響應文本描述流的動作,尤其是在線上和實時環境中。
方法:
本研究提出了一種名為 DART 的新型基於擴散的自動迴歸運動原語模型,該模型具有以下三個關鍵組成部分:
運動原語表示: DART 將長時間的人體運動表示為一系列重疊的短運動片段(運動原語),這些片段經過量身定制,適用於線上生成和控制。
文本條件化的運動原語空間: DART 使用潛在擴散架構從大規模數據中學習文本條件化的運動原語空間。該架構包含一個用於在緊湊的潛在運動空間中生成運動的去噪網路,以及一個用於重建詳細運動的解碼器網路。
空間控制: DART 學習到的運動原語空間允許通過潛在空間優化或基於強化學習的演算法進行精確的空間運動控制。
主要發現:
實驗結果表明,DART 在運動真實感、效率和可控性方面優於現有基準模型。具體來說,DART 能夠:
根據連續的文本提示生成長時間、連續的運動序列。
生成介於給定歷史關鍵幀和目標關鍵幀之間的運動。
生成符合場景條件的運動,例如爬樓梯和走到椅子上坐下。
通過強化學習學習控制策略,以實現文本條件化的目標到達任務,例如控制虛擬角色走到指定位置。
結論:
DART 是一種簡單、統一且高效的運動模型,適用於各種需要精確空間控制的運動生成任務。它為動畫師和普通用戶提供了一種新穎、高效的語言介面,用於控制虛擬角色,從而減少了指定空間控制信號所需的精力。
意義:
DART 的開發對於遊戲、電影和虛擬現實等應用中的計算機動畫和角色控制具有重要意義。它為創建更逼真、更具互動性和更具吸引力的虛擬體驗開闢了新的可能性。
局限性和未來研究方向:
DART 依賴於具有幀級別對齊文本標註的運動序列,這限制了其對其他數據集的適用性。
DART 的空間控制能力可以通過探索更先進的控制演算法來進一步增強。
未來的研究可以探索將 DART 擴展到其他運動生成任務,例如多人互動和基於物理的運動合成。
統計資料
DART 每秒可生成超過 300 幀的動作,延遲時間為 0.02 秒。
在文本條件時間動作組合的用戶研究中,與基準模型相比,參與者更傾向於 DART 生成的動作的真實感和動作與文本的一致性。
在文本條件動作中介生成任務中,DART 生成的動作與關鍵幀的距離最接近,並且滑步和抖動偽影也更少。
在文本條件目標到達任務中,DART 訓練的控制器能夠在合理的時間範圍內始終到達所有目標,而基準模型 GAMMA 有時無法到達最終目標,並且可能會漂浮到接觸閾值以上。