核心概念
GLOVER 框架通過微調大型語言模型,賦予機器人理解自然語言指令並根據任務需求抓取物件特定部位的能力,提升機器人在開放環境中的操作能力。
本研究論文介紹了一種名為 GLOVER 的新型框架,旨在提升機器人在開放詞彙環境下執行任務導向抓取的能力。GLOVER 結合了視覺和語言資訊,使機器人能夠理解自然語言指令,並準確地抓取物件的特定部位。
研究背景
現有的機器人抓取方法大多依賴於封閉環境下的物件識別和抓取策略,難以適應開放詞彙環境中物件的多樣性和任務的複雜性。為了解決這些問題,GLOVER 框架應運而生。
方法介紹
GLOVER 框架的核心是將大型語言模型(LLM)與視覺資訊相結合,實現可泛化和開放詞彙的示能推理。具體來說,GLOVER 框架包含以下幾個關鍵步驟:
視覺-語言示能資料集構建: 研究人員收集了大量包含人類與物件互動的圖像,並為每個圖像標註了物件類別、動作和可抓取部位等資訊。
多模態示能推理: 利用預先訓練好的 LLM,GLOVER 框架將圖像和語言指令作為輸入,生成一個包含可抓取部位資訊的視覺示能圖。
示能感知抓取估計: 基於視覺示能圖,GLOVER 框架採用一種非參數化的方法來估計機器人抓取器的最佳姿態,確保抓取的準確性和穩定性。
實驗結果
研究人員在多個真實場景中對 GLOVER 框架進行了評估,結果表明 GLOVER 框架在物件識別、示能推理和抓取成功率等方面均優於現有方法。此外,GLOVER 框架還具有較高的計算效率,能夠滿足實時應用的需求。
總結
GLOVER 框架為機器人抓取領域帶來了新的突破,其可泛化和開放詞彙的示能推理能力將推動機器人在更廣泛的領域中得到應用。
统计
GLOVER 在物件部位識別方面達到了 86.0% 的成功率。
GLOVER 在抓取任務中達到了 76.3% 的成功率。
與先前最先進的技術相比,GLOVER 的示能推理速度提高了約 330 倍。
GLOVER 的抓取姿態估計速度提高了約 40 倍。