核心概念
RDT-1B 是一種基於擴散模型的雙臂機械手操作基礎模型,透過大規模多機器人數據集的預訓練和針對目標雙臂機器人數據集的微調,展現出優異的泛化能力,能夠完成需要靈巧操作的複雜任務,並在少樣本學習和零樣本泛化到未見過的物體、場景和指令方面表現出色。
文獻資訊: Liu, S., Wu, L., Li, B., Tan, H., Chen, H., Wang, Z., ... & Zhu, J. (2024). RDT-1B: A Diffusion Foundation Model for Bimanual Manipulation. arXiv preprint arXiv:2410.07864.
研究目標: 本研究旨在開發一種基於擴散模型的雙臂機械手操作基礎模型 RDT-1B,解決雙臂機械手操作中數據稀缺和操作複雜性增加的挑戰。
研究方法: RDT-1B 採用擴散轉換器 (DiT) 作為其可擴展的骨幹網路,並針對具有視覺的語言條件雙臂機械手操作進行了特殊設計。為了提高表達能力,RDT 利用擴散模型建模複雜分佈的能力,從大量數據中捕捉雙臂動作的完整模態。為了提高可擴展性,研究人員利用轉換器骨幹網路,並精心設計了多模態編碼,以消除各種模態的異質性。為了描述機器人數據中固有的非線性動力學、高頻變化和不穩定的數值範圍,研究人員對原始 DiT 結構進行了重要修改,包括 MLP 解碼、改進的歸一化和交替條件注入。為了進一步在異構數據上訓練 RDT,研究人員提出了物理可解釋的統一動作空間,這是一種用於具有夾持臂的各種機器人的統一動作格式。這種創新格式減輕了不同機器人之間的潛在衝突,同時保留了原始動作的物理意義,可以促進模型學習不同機器人數據集中可泛化的物理知識。
主要發現: RDT-1B 在多項雙臂機械手操作任務中均優於現有方法,包括 ACT、OpenVLA 和 Octo。具體來說,RDT 在以下方面表現出色:
零樣本泛化: RDT 可以泛化到未見過的物體、場景和指令,例如在未見過的房間裡將水倒入杯中,或者用未見過的杯子清洗。
指令遵循: RDT 可以理解和遵循語言指令,例如用左手將水倒入杯中直到三分之一滿。
少樣本學習: RDT 可以通過少樣本學習來學習新的技能,例如通過五個演示學習交接物體的技能。
靈巧操作: RDT 可以完成需要靈巧操作的任務,例如控制機器狗用操縱桿直線行走。
主要結論: RDT-1B 是一種通用的雙臂機械手操作基礎模型,具有很強的泛化能力。大模型規模、廣泛的數據和擴散模型都是其優異性能的必要因素。
研究意義: RDT-1B 的開發為構建更強大、更通用的機器人操作系統鋪平了道路,並為機器人技術在家庭、工業和醫療保健等各個領域的廣泛應用提供了新的可能性。
研究限制和未來研究方向:
RDT-1B 的訓練需要大量的計算資源。
RDT-1B 的性能在很大程度上取決於訓練數據的質量。
未來的工作可以探索將 RDT-1B 擴展到更廣泛的機器人任務,例如移動操作和人機交互。
統計資料
RDT-1B 模型包含 12 億個參數。
預訓練數據集包含來自 46 個不同機器人的 100 多萬個軌跡,總大小為 21TB。
微調數據集包含 6000 多個軌跡,涵蓋 300 多個具有挑戰性的任務,100 多個物體和 15 個不同的房間。
RDT-1B 在 48 個 H100 80GB GPU 上進行了一個月的預訓練,總共進行了 100 萬次訓練迭代步驟。
微調過程在相同的 GPU 上進行了三天,共進行了 13 萬次迭代步驟。
使用 DPM-Solver++ 進行實時推理,可以將採樣動作塊所需的擴散步驟從 100 步減少到 5 步,在目標機器人搭載的 RTX 4090 24GB GPU 上實現了 6 Hz 的動作塊推理頻率和 381 Hz 的平均動作推理頻率。