Core Concepts
大規模な視覚言語モデルを活用し、2D画像と3Dポイントクラウドの自然な対応関係を利用することで、3Dビジュアルグラウンディングを弱教師学習の枠組みで実現する。
Abstract
本論文は、3Dビジュアルグラウンディングの新しい弱教師学習アプローチ「3D-VLA」を提案している。3D-VLAは、大規模な視覚言語モデル(VLM)の優れた2D画像と自然言語の意味的整合性を活用し、2D画像と3Dポイントクラウドの自然な対応関係を利用することで、3Dポイントクラウドと自然言語の意味的整合性を暗黙的に構築する。
具体的には、3D-VLAは以下の3つのモジュールから構成される:
3Dエンコーダ: 3Dポイントクラウドから3D提案候補の特徴を抽出する。
テキストエンコーダ: 事前学習済みのVLMのテキストエンコーダを用いて、テキストクエリの特徴を抽出する。
2Dエンコーダ: 同様にVLMの画像エンコーダを用いて、2D画像領域の特徴を抽出する。
3D-VLAは、2D画像と3Dポイントクラウドの自然な対応関係、および2D画像とテキストの意味的整合性を利用して、3Dポイントクラウドとテキストの対応関係を暗黙的に学習する。さらに、タスク特化の分類損失を導入することで、3Dポイントクラウドとテキストの意味的整合性をより強化する。
実験の結果、3D-VLAは、完全教師学習の手法と比較しても遜色ない、あるいは優れた性能を示すことが確認された。これは、大規模VLMと幾何学的な3D-2D対応関係を活用する3D-VLAの有効性を示している。
Stats
3Dポイントクラウドシーンには、N個の点が含まれ、各点はRGB-XYZの6次元で表現される。
3Dシーンには、M個の3D提案候補が存在する。
データセットには、3D物体のカテゴリラベルが用意されている。