本研究は、CLIP (Contrastive Language-Image Pre-Training)特徴を効率的に3Dマップに埋め込む新しい手法を提案する。従来の物体検出や言語理解に基づくマッピング手法は、固定された語彙に限定されていたが、CLIPを活用することで、オープンボキャブラリーに対応したマッピングが可能となる。
提案手法では、入力画像を複数のスケールで分割し、一括してCLIPエンコーダに入力することで、効率的にCLIP特徴を抽出する。抽出したCLIP特徴は、深度情報に基づいて3D空間に埋め込まれ、マップを構築する。
このマップは、言語クエリとの類似度に基づいて物体を検索できるため、未知の環境を探索しながら、オープンボキャブラリーの物体を検索・ナビゲーションできる。
実験では、シミュレーション環境およびロボットを用いた実環境で、提案手法の有効性を確認した。提案手法は、従来手法と比較して高い物体検索成功率を示し、同時に高速な処理を実現できることを示した。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Shun Taguchi... at arxiv.org 03-28-2024
https://arxiv.org/pdf/2403.18178.pdfDeeper Inquiries