核心概念
本文介紹了首個開放詞彙線上三維語義 SLAM 流程,稱為 OVO-SLAM,它能夠從 RGB-D 影片串流中即時估計平台的運動軌跡,並建立周圍環境的語義地圖,超越了傳統基於封閉詞彙或離線處理的限制。
本研究旨在開發一種名為 OVO-SLAM 的新型開放詞彙線上同步定位與地圖繪製 (SLAM) 流程,該流程能夠從 RGB-D 影片串流中即時估計平台的運動軌跡,並建立包含語義資訊的三維環境地圖。
OVO-SLAM 採用並行追蹤與地圖繪製架構,並結合了以下關鍵技術:
**視覺 SLAM 骨幹:**用於追蹤相機姿態並建立場景的密集三維點雲。
**三維區塊映射器:**將三維點雲聚集成三維區塊,並使用 CLIP 向量描述每個區塊的語義。
**佇列機制:**用於分配運算資源以提取 CLIP 描述符。
**新型 CLIP 合併方法:**從多個視角中聚合 CLIP 描述符,以獲得每個三維區塊的最佳語義描述。