本文提出了一種名為OptiGrasp的創新方法,利用預訓練的深度估計模型來增強吸盤抓取的能力,僅使用RGB影像作為輸入。
首先,作者建立了一個模擬環境,生成了包含超過400,000個實例的大規模合成數據集,其中包含350多種不同的物品。這些物品被隨機放置在貨架上,並進行了域隨機化處理,以增強模型的泛化能力。
接下來,作者設計了一個網絡架構,將預訓練的DINOv2模型作為骨幹,並在此基礎上添加了一個Affordance Grasp Head模塊。這個模塊可以預測三個關鍵的抓取親和力圖:抓取位置、俯仰角和偏航角。通過選擇抓取親和力圖上最高分的位置,並使用對應的俯仰角和偏航角,可以確定最佳的6D抓取姿態。
作者僅在合成數據上進行了訓練,沒有在真實世界數據上進行fine-tuning。在真實機器人實驗中,OptiGrasp在各種難度的物品集上都表現出色,取得了82.3%的成功率。相比之下,深度感測器為主的方法如DexNet3.0和Centroid方法的成功率分別為40.5%和57.2%。
這項工作展示了利用預訓練的深度估計模型可以有效地提升基於RGB影像的抓取能力,在不需要深度感測器的情況下實現了出色的泛化性能。未來,作者計劃進一步探索利用視覺-語言模型和常識推理來增強系統的健壯性和適應性。
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Soofiyan Ata... о arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19494.pdfГлибші Запити