本研究では、BBQと呼ばれる新しい手法を提案している。BBQは、3Dシーンを効率的に表現するためのオブジェクト中心の3Dマッピングアルゴリズムと、大規模言語モデルを活用したデダクティブなシーン推論アルゴリズムから構成される。
3Dマッピングアルゴリズムでは、DINO特徴量を用いて効率的にオブジェクトを検出・統合し、クラスに依存しない3Dオブジェクトマップを構築する。また、オブジェクト間の距離や空間関係を表すメトリックエッジと意味的エッジを持つ3Dシーングラフを生成する。
デダクティブなシーン推論アルゴリズムでは、まず大規模言語モデルを用いてクエリに関連するターゲットオブジェクトとアンカーオブジェクトを特定する。次に、それらのオブジェクトの位置関係情報を活用して最終的な答えを導出する。
提案手法は、Replica、ScanNet、Sr3D+、Nr3D、ScanReferデータセットを用いた評価実験において、従来手法を大きく上回る性能を示した。特に、同一クラスの複数オブジェクトが存在する複雑なシーンでの性能が優れている。また、実ロボットプラットフォームでの実験でも高速な処理能力を実証した。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询