แนวคิดหลัก
本文提出了一種基於場景圖的機器人動態環境感知架構,該架構利用大型語言模型 (LLM) 和粒子濾波器來實現對動態環境的精確感知和任務規劃。
บทคัดย่อ
基於大型語言模型的機器人動態環境感知:時間在我的視線中 - 場景圖過濾
本文介紹了一種用於解決人機交互中關鍵挑戰的機器人控制架構,特別關注機器人狀態表示的動態創建和持續更新。該架構使用大型語言模型 (LLM) 來整合多種信息來源,包括自然語言命令、機器人技能表示、感知場景的實時動態語義映射。這使得機器人能夠在複雜的動態環境中表現出靈活和自適應的行為。
導言
即時性在輔助機器人中至關重要。
使用者可以使用自然語言向機器人發出指令,例如“拿起桌子上的藍色瓶子並把它拿給我”。
大型語言模型 (LLM) 使機器人能夠理解自然語言請求並將指令“翻譯”成實現特定目標的計劃;然而,這些模型需要了解它們運作的環境才能生成準確的計劃。
機器人架構必須將自然語言處理與環境理解相結合。
本文的主要關注點是利用場景圖作為語義地圖,提供機器人環境的空間和語義信息的結構化表示。這使得 LLM 能夠基於這些信息生成計劃。
通過場景圖,機器人可以映射對象之間的關係、它們的屬性和它們的空間排列。
相關工作
場景圖通過顯式建模對象、它們的屬性和成對對象之間的關係(例如,“桌子上的藍色瓶子”)來捕獲詳細的場景語義。
3D 場景圖將此概念擴展到三維空間,表示房屋或辦公室等環境,其中每件家具、房間和物體都是一個節點。這些節點之間的邊描述了它們的關係,例如桌子上的花瓶或沙發前的椅子。
最近的研究,例如 [7] 和 [8],提出了從 RGB-D 圖像生成 3D 場景圖,結合幾何和語義信息來創建詳細的環境表示。
場景圖已廣泛應用於計算機視覺和機器人技術,以改進場景理解、物體檢測和任務規劃。
總之,上述構建環境表示方法的主要局限性在於它們依賴於計算量大的視覺語言模型 (VLM) 和計算機視覺模型。這些模型並非為精度而設計,並且通常需要大量資源,同時缺乏實時更新的能力,從而限制了它們的實際應用。
架構
我們的系統基於兩個組件:
**感知模塊:**負責感知和解釋環境,並以有向圖的形式構建語義地圖,該圖整合了几何和語義信息。
**規劃器模塊:**它接收感知模塊提供的信息,以制定計劃和動作,使機器人能夠執行特定任務。
感知模塊
感知模塊是負責構建環境表示的組件,機器人可以使用該表示進行任務規劃。
表示形式採用語義地圖的形式,該地圖是整合了有關環境的幾何和語義信息的圖形。
為了生成語義地圖,感知模塊使用來自各種傳感器的數據。
它需要從相機獲得的 RGB-D 幀,然後使用場景圖生成模型(例如 PSGTR [12])對其進行處理,以提取對象掩碼、標籤和關係。
它還使用有關相機相對於幾何地圖的位置的數據來確定模型識別的對象的位置。
生成和更新語義地圖
場景圖生成過程基於 PSGTR 模型,這是一個基於 Transformer 架構 [13] 構建的單階段模型。
感知模塊使用 PSTGR 的結果並按照以下步驟構建語義地圖:
讀取 RGB-D 幀。
讀取機器人姿勢。
推理。
圖形構造。
在流程結束時,語義地圖會使用新信息進行更新,並生成語義場景並提供給規劃器模塊。
粒子濾波器用於實時跟踪 PSGTR 模型作為輸出提供的對象掩碼,並改進對其在空間中的位置的估計。
結論
場景圖提供了一種結構化表示,可以捕獲有關環境的幾何和語義信息。這種全面的理解可以通過大型語言模型改進任務規劃,從而允許機器人執行命令。
在本文中,我們展示了如何使用實時傳感器數據來動態更新語義地圖,從而使機器人能夠適應其環境中的持續變化,尤其是在受人類行為影響的協作環境中。
這裡,應用粒子濾波來提高幾何數據精度和語義地圖精度。
除了與環境的物理交互之外,這對於社交交互和意圖預測 [14, 15] 也特別重要。
本文解決的問題非常重要。實際上,規劃器將複雜指令轉換為可操作計劃的有效性依賴於穩健的狀態表示。如果沒有準確的語義地圖,規劃器可能會生成與實際環境不符的計劃,從而可能導致任務失敗。
整合語義和幾何洞察力使機器人能夠以更加知情和自適應的方式推理其環境,確保它們能夠在動態環境中有效且靈敏地運行。
採用包含豐富空間信息的語義地圖以及基於靈活 LLM 的規劃器,可以輕鬆地在未來探索引入新的空間關係,例如包裹、卡在下方、周圍、對齊,這些關係可以支持特定的新型機器人技能 [16]。