核心概念
提案手法3DIMILは、ニューラルフィールドを用いて、効率的に2Dインスタンスマスクを3D空間に一貫して投影し、物体インスタンスを分割する。
要約
本研究では、3DIML(3D Instance Mapping and Localization)と呼ばれる新しい手法を提案している。3DIMILは、2Dインスタンスセグメンテーションモデルから得られる不整合な2Dマスクを、3D空間に一貫したラベルに変換する。
InstanceMapでは、画像間の対応点マッチングを用いて、2Dマスクを3Dラベルに関連付ける。次にInstanceLiftでは、この擬似ラベルマスクを用いて、ニューラルラベルフィールドを学習し、欠落したラベルの補完や曖昧さの解消を行う。
さらに、InstanceLocでは、ニューラルラベルフィールドと高速なインスタンスセグメンテーションモデルを組み合わせることで、新規ビューでの高速なインスタンスロケーリゼーションを実現する。
全体として、3DIMILは従来手法に比べ14-24倍高速で、同等の性能を達成している。これにより、ロボティクスなどの実用的なシーン理解アプリケーションへの適用が期待できる。
統計
提案手法3DIMILは、従来手法のPanoptic Liftingに比べて、14-24倍高速に処理できる。
Panoptic Liftingは3-6時間かかるのに対し、3DIMILは10-20分程度で処理可能。
引用
"3DIMILは、ニューラルフィールドを用いて、効率的に2Dインスタンスマスクを3D空間に一貫して投影し、物体インスタンスを分割する。"
"3DIMILは従来手法に比べ14-24倍高速で、同等の性能を達成している。これにより、ロボティクスなどの実用的なシーン理解アプリケーションへの適用が期待できる。"