Core Concepts
我々は、オープンセット物体とカテゴリを識別し認識する能力を持つ軽量でスケーラブルな地域ポイント言語対照学習フレームワーク「RegionPLC」を提案する。
Abstract
本論文では、オープンワールド3Dシーン理解を目的とした地域ポイント言語対照学習フレームワーク「RegionPLC」を提案している。
まず、複数の2Dビジョン言語基盤モデルから得られる3D-言語ペアを融合する3D対応SFusion戦略を導入し、高品質で密な地域レベルの言語記述を生成する。次に、この地域レベルの3D-言語ペアを活用して、地域認識ポイント識別的な対照学習目的関数を設計し、言語監視下での堅牢で効果的な3D表現学習を実現する。
実験では、ScanNet、ScanNet200、nuScenesデータセットで評価を行い、従来手法に比べ、セマンティックセグメンテーションでは平均17.2%、インスタンスセグメンテーションでは平均9.1%の性能向上を達成した。さらに、リソース要求も大幅に削減できることを示した。また、学習した3D-言語関連を活用して、言語モデルとの統合により、追加のタスク特化トレーニングなしでオープンエンドの3D推論を可能にした。
Stats
我々の手法は従来手法に比べ、セマンティックセグメンテーションでは平均17.2%、インスタンスセグメンテーションでは平均9.1%の性能向上を達成した。
我々の手法は従来手法に比べ、リソース要求を大幅に削減できる。
Quotes
"我々は、オープンセット物体とカテゴリを識別し認識する能力を持つ軽量でスケーラブルな地域ポイント言語対照学習フレームワーク「RegionPLC」を提案する。"
"実験では、ScanNet、ScanNet200、nuScenesデータセットで評価を行い、従来手法に比べ、セマンティックセグメンテーションでは平均17.2%、インスタンスセグメンテーションでは平均9.1%の性能向上を達成した。"