核心概念
IGOR 透過學習統一的潛在動作空間,實現了人類與機器人知識的遷移,並能有效提升具身 AI 基礎模型的訓練效率。
摘要
IGOR:圖像目標表徵
論文資訊:
Chen, X., Guo, J., He, T., Zhang, C., Zhang, P., Yang, D., ... & Bian, J. (2024). IGOR: Image-GOal Representations are the Atomic Control Units for Foundation Models in Embodied AI. arXiv preprint arXiv:2411.00785v1.
研究目標:
本研究旨在解決具身 AI 基礎模型訓練過程中缺乏互動數據的問題,並探討如何利用網際網路上大量的視頻數據來訓練更強大的具身 AI 模型。
方法:
研究人員提出了一種名為 IGOR 的訓練框架,該框架的核心是學習一個統一的潛在動作空間,這個空間可以被不同任務和不同形態的機器人和人類所共享。IGOR 通過將初始圖像和目標狀態之間的視覺變化壓縮成潛在動作來實現這一點。具體來說,IGOR 包含以下幾個關鍵組成部分:
- 潛在動作模型:該模型負責從未標記的開放域視頻中以無監督的方式標記潛在動作。
- 基礎世界模型:這是一個連續時間整流流模型,它學習根據歷史觀察幀和未來潛在動作來預測未來的幀。
- 基礎策略模型:該模型根據觀察到的圖像和文本描述預測下一步要執行的潛在動作。
- 低級策略模型:該模型將基礎策略模型預測的潛在動作轉換為機器人可以執行的具體動作。
主要發現:
- IGOR 可以學習到一個語義一致的潛在動作空間,該空間可以表徵物體的各種可能運動,代表了物理交互知識。
- IGOR 可以通過聯合使用潛在動作模型和世界模型,將一個視頻中物體的運動“遷移”到其他視頻中,甚至可以跨越人類和機器人。
- IGOR 可以通過基礎策略模型學習將潛在動作與自然語言對齊,並將潛在動作與低級策略模型集成以實現有效的機器人控制。
主要結論:
IGOR 為人類到機器人的知識遷移和控制開闢了新的可能性,並為利用網際網路規模的視頻數據訓練具身 AI 基礎模型提供了一種有效途徑。
意義:
本研究對於推動具身 AI 的發展具有重要意義,它提供了一種新的思路來解決數據稀缺問題,並為構建更通用和智能的機器人系統奠定了基礎。
局限與未來研究方向:
- IGOR 無法區分由代理、其他代理(如狗)或相機抖動引起的視覺變化。
- 未來可以考慮將圖像處理方法(如目標分割)與 IGOR 相結合,以更好地利用數據。
- 可以對基礎世界模型進行微調,使其與真實世界場景相匹配,並針對多代理場景調整潛在動作模型。
統計資料
研究人員使用了包含約 80 萬個機器人軌跡和 200 萬個人類活動視頻片段的大規模數據集來訓練 IGOR。
在低數據環境下,僅使用 RT-1 數據集 1% 的數據對低級策略模型進行微調,IGOR 在 SIMPLER 模擬器中的 Google 機器人任務上取得了比從頭訓練的模型更高或相當的成功率。