本研究は、屋外の大規模ポイントクラウドシーンにおいて、自然言語の指示に基づいて特定の位置を特定するタスクに取り組んでいる。従来の手法は、物体インスタンスの情報を必要としていたが、提案手法では、そのような事前情報に依存せずに、ポイントクラウドと言語指示を直接処理することで、位置推定を行う。
具体的には、2段階のアプローチを採用している。まず、粗い段階では、言語指示と点群セルの特徴を共通の埋め込み空間に射影し、上位k個のセルを検索する。この際、行列相対位置を考慮したself-attentionを導入することで、セル間の空間関係を捉えている。次に、細かい段階では、検索されたセルと言語特徴を多様体融合し、最終的な位置を推定する。この際、相対位置を考慮したcross-attentionを用いることで、言語と点群の空間関係を効果的に活用している。
提案手法は、物体インスタンスの事前情報を必要としないため、新しい環境への適用が容易である。また、相対位置情報の活用により、従来手法と比べて高い位置推定精度を達成している。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania