Concepts de base
Flex 是一個利用預先訓練好的視覺語言模型 (VLM) 從少量模擬數據中學習,並能泛化到真實世界場景中執行文字指令視覺導航任務的機器人框架。
本研究旨在探討如何利用預先訓練好的視覺語言模型 (VLM) 來實現機器人端到端文字指令視覺導航,並使其能夠從有限的模擬數據中學習,並泛化到真實世界場景中。
研究人員開發了一個名為 Flex 的框架,該框架使用預先訓練好的 VLM 作為凍結的逐塊特徵提取器,生成整合語義和視覺信息的空間感知嵌入。這些豐富的特徵構成了訓練高度穩健的下游策略的基礎,這些策略能夠跨平台、環境和文字指定任務進行泛化。
具體來說,Flex 的訓練流程包括以下步驟:
數據集設計: 研究人員創建了四個不同數據表示豐富度的數據集,用於評估目標和文字指令措辭的多樣性對訓練代理泛化能力的影響。
特徵提取: 使用預先訓練好的 VLM 作為特徵提取器,並提出了一種提取空間特徵向量的方法,以便為圖像中的特定區域提供更精細的信息。
策略網絡: 研究人員評估了不同策略網絡頭部(如 ViT、CNN 和 MLP)對代理性能和可解釋性的影響。