核心概念
本文提出了一種名為 ROCKET-1 的新型分層代理架構,透過視覺時間上下文提示,有效地將視覺語言模型的空間理解能力應用於具身決策,在開放世界互動任務中展現出優於基準方法的顯著效能。
摘要
書目資訊
Cai, S., Wang, Z., Lian, K., Mu, Z., Ma, X., Liu, A., & Liang, Y. (2024). ROCKET-1: Master Open-World Interaction with Visual-Temporal Context Prompting. arXiv preprint arXiv:2410.17856v1.
研究目標
本研究旨在解決具身代理在開放世界環境中進行互動的挑戰,特別是將視覺語言模型 (VLM) 的能力轉移到需要空間理解的具身決策任務中。
方法
- 視覺時間上下文提示: 作者提出了一種新的通訊協定,稱為視覺時間上下文提示,允許高階推理器透過在過去和現在的視覺觀察中應用物件分割來突出顯示感興趣的區域,並透過一組技能原語傳達互動類型提示。
- ROCKET-1 架構: 作者開發了一個名為 ROCKET-1 的低階策略,它使用視覺觀察和推理器提供的分割作為任務提示,以因果關係預測動作。ROCKET-1 採用 Transformer 架構來建模觀察之間的時間依賴關係,並透過整合最先進的視訊分割模型 SAM-2 來增強其物件追蹤能力。
- 反向軌跡重新標記: 作者提出了一種反向軌跡重新標記方法,可以使用預先訓練的 SAM 模型以反向時間順序有效地生成分割註釋,從而促進 ROCKET-1 訓練資料集的創建。
主要發現
- ROCKET-1 在 Minecraft 互動基準測試中始終優於所有基準,證明了視覺時間上下文提示在傳達空間資訊方面的有效性。
- ROCKET-1 + Molmo 在需要零樣本泛化能力的任務中表現出色,例如「將橡木門放置在鑽石塊上」任務,突出了其泛化能力。
- 在需要複雜推理能力的長期任務中,與基於語言、未來圖像和潛在代碼的通訊協定相比,基於視覺時間上下文的 ROCKET-1 方法顯著提高了成功率。
主要結論
- 視覺時間上下文提示是一種有效的通訊協定,可以彌合高階推理器和低階策略之間的空間資訊差距。
- ROCKET-1 是一種強大的物件分割條件策略,能夠在開放世界環境中與物件進行即時互動。
- 將 ROCKET-1 與先進的 VLM 整合可以產生能夠解決複雜、長期任務的強大具身代理。
意義
這項研究顯著推進了具身代理在開放世界環境中互動的能力,為開發更強大、更通用的 AI 系統鋪平了道路。
局限性和未來研究
- ROCKET-1 無法與視野之外或以前從未遇到過的物件互動,這限制了其在某些任務中的效率。
- 未來的工作可以探索增強 ROCKET-1 探索和處理新物件能力的方法,從而減少對推理器頻繁干預的需求。
統計資料
ROCKET-1 + Molmo 在「將橡木門放置在鑽石塊上」任務中達到了 91% 的成功率。
在「牛排」任務中,與基準方法相比,基於視覺時間上下文的 ROCKET-1 方法的成功率提高了 35%。
在「羊毛染色」任務中,基於視覺時間上下文的 ROCKET-1 方法達到了 75% 的成功率,而所有先前的基準方法均告失敗。