Основні поняття
本文提出了一個基於可供性(Affordance)和流匹配(Flow Matching)的新框架,用於機器人操控任務,特別是在日常生活場景中,能有效地將大型視覺語言模型適應於機器人操控策略學習,並生成多模態動作分佈。
文獻資訊
Fan Zhang, Michael Gienger. (2024). Affordance-based Robot Manipulation with Flow Matching. arXiv preprint arXiv:2409.01083v2.
研究目標
本研究旨在解決兩個機器人操控領域的關鍵挑戰:
如何有效地將大型視覺語言模型應用於理解場景可供性,特別是在難以收集人類多任務數據的日常生活場景中。
如何有效地學習機器人軌跡,並將其與視覺可供性模型相結合。
方法
為了解決上述挑戰,本研究提出了一個基於可供性和流匹配的新框架,用於機器人操控任務。該框架主要包含兩個部分:
基於提示調節的可供性學習
採用參數高效的提示調節方法,將可學習的文本提示添加到凍結的視覺模型中,以預測多任務場景中的操控可供性。
相較於微調整個模型,提示調節方法只需更新少量參數,就能有效地將預訓練的視覺語言模型適應於特定任務。
基於流匹配的軌跡生成
提出了一種基於可供性的機器人軌跡學習方法,採用監督式流匹配方法。
將機器人視覺運動策略表示為將隨機路點流向期望機器人軌跡的條件過程。
相較於傳統的行為克隆方法,流匹配方法在處理多模態機器人動作分佈時,具有更好的泛化性能和更快的推理速度。
實驗結果
在包含10項日常生活活動的真實世界數據集上進行了廣泛的評估。
結果表明,基於提示調節的可供性學習方法在不同數據規模下均取得了與其他微調方法相當甚至更好的性能,同時保持了參數效率。
基於流匹配的軌跡生成方法在穩定性、生成質量和計算效率方面均優於其他行為克隆方法,包括擴散策略。
結論
本研究首次嘗試將基於視覺語言模型的可供性與流匹配相結合,應用於真實世界的機器人操控任務。實驗結果證明了該框架的有效性和效率。
研究意義
為機器人操控領域提供了一種新的思路,可以有效地利用大型預訓練模型,並提高機器人在日常生活場景中的適應性和泛化能力。
為機器人學習多模態動作分佈提供了一種有效的解決方案。
研究限制與未來方向
目前僅使用RGB圖像作為輸入,未來可以考慮結合深度或點雲信息,以提高3D姿態估計的準確性。
未來可以進一步探索加權流匹配策略,以解決初始抓取過程中可能出現的誤差問題。
Статистика
本研究建立了一個包含10項日常生活活動的真實世界數據集,共計10,000個示範數據。
每個任務包含1,000組RGB圖像、示範機器人軌跡和標記好的可供性真值。
實驗結果顯示,深度提示調節結構在可供性熱圖估計誤差和熱圖中心誤差方面均優於其他基線模型,除了完全微調模型。
與完全微調相比,提示調節在數據量較少的情況下表現出更好的適應性。
基於CNN的流匹配在2D和3D軌跡預測精度方面優於其他基線模型,包括擴散策略和基於Transformer的行為克隆。
在Franka Kitchen基準測試中,2步流匹配(成功率:0.9750,時間:13.18毫秒)與16步擴散策略(成功率:0.9840,時間:157.46毫秒)取得了相當的性能,但推理時間顯著降低了約90%。