核心概念
Sparsh 是一種透過自監督學習訓練的通用觸覺表徵模型,適用於基於視覺的觸覺感測器,能夠在有限的標註數據下,有效地完成多種觸覺感應任務,例如力估計、滑動檢測、姿態估計和抓取穩定性預測等。
摘要
Sparsh:用於基於視覺的觸覺感應的自監督觸覺表徵學習
論文資訊
- 標題:Sparsh: Self-supervised touch representations for vision-based tactile sensing
- 作者:Carolina Higuera, Akash Sharma, Chaithanya Krishna Bodduluri, Taosha Fan, Patrick Lancaster, Mrinal Kalakrishnan, Michael Kaess, Byron Boots, Mike Lambeta, Tingfan Wu, Mustafa Mukadam
研究目標
本研究旨在開發一種通用的觸覺表徵學習方法,以解決現有基於視覺的觸覺感測器在機器人操作任務中缺乏通用性和數據效率的問題。
方法
- 提出 Sparsh,一個透過自監督學習在超過 460,000 張觸覺圖像上訓練的觸覺表徵模型家族。
- 採用多種自監督學習方法,包括遮罩圖像建模 (MIM)、自蒸餾和聯合嵌入預測架構 (JEPA),並將其應用於觸覺領域。
- 構建 TacBench,一個包含六項以觸覺為中心的任務的基準測試,用於評估觸覺表徵模型在觸覺特性理解、物理感知和操作規劃方面的能力。
主要發現
- Sparsh 表徵在 TacBench 的所有任務中均表現出色,優於特定任務和感測器的端到端模型,尤其是在標註數據有限的情況下。
- 在 TacBench 上,Sparsh 平均比端到端方法提高了 95.1% 的性能,證明了自監督預訓練在觸覺表徵學習中的有效性。
- Sparsh (DINO) 擅長基於物理的任務,例如力和姿態估計,而 Sparsh (IJEPA) 在觸覺語義理解方面表現更好,例如滑動狀態、抓取穩定性和紡織品識別。
主要結論
- 自監督學習為基於視覺的觸覺感測器學習通用觸覺表徵提供了一種有效途徑。
- Sparsh 表徵在各種觸覺感應任務中表現出優異的性能,證明了其在機器人操作中的潛力。
- TacBench 為評估觸覺表徵模型提供了一個標準化基準,促進了觸覺感應領域的進一步研究。
意義
本研究為機器人觸覺感知領域做出了重大貢獻,開發了一種通用的觸覺表徵學習方法,並構建了一個標準化的基準測試。這些成果將促進機器人對觸覺信息的理解和利用,推動機器人操作能力的提升。
局限性和未來研究方向
- 本研究中使用的觸覺數據集主要包含離散接觸交互,未來可以考慮納入更多包含剪切交互的數據,以進一步改進表徵。
- 未來可以研究不同長度的觸覺圖像歷史對表徵學習的影響,以優化模型在不同下游任務中的性能。
- 需要進一步研究如何有效地將預先訓練的觸覺表徵應用於機器人操作任務中的行為克隆,以提高機器人在真實世界中的操作能力。
統計資料
Sparsh 模型在 460,000 多張觸覺圖像上進行了自監督預訓練。
TacBench 基准測試包含六項以觸覺為中心的任務。
在 TacBench 上,Sparsh 平均比端到端方法提高了 95.1% 的性能。
Sparsh (DINO) 比 Sparsh (IJEPA) 在 TacBench 上平均高出 5.6%。
使用 Sparsh (DINO) 進行力估計,在標註數據僅為 10% 的情況下,力誤差仍低於 0.1N。
在珠子迷宮測試演示中,使用 Sparsh 表徵的策略比端到端訓練的策略產生的軌跡誤差顯著降低了約 16%。
在真實機器人部署中,使用 Sparsh 表徵的策略在珠子迷宮任務中的成功完成距離比端到端訓練的策略提高了約 20-53%。
引述
"我們介紹 Sparsh,一個透過自監督學習在超過 460,000 張觸覺圖像上訓練的觸覺表徵模型家族。"
"我們構建 TacBench,一個包含六項以觸覺為中心的任務的基準測試,用於評估觸覺表徵模型在觸覺特性理解、物理感知和操作規劃方面的能力。"
"我們的結果表明,Sparsh 表徵在各種感測器和任務中均表現出色,能夠捕捉觸覺特性,並增強物理感知和操作規劃。"