核心概念
UniDet3Dは、複数の屋内3Dデータセットを統合的に学習することで、様々な屋内環境でより高精度な3Dオブジェクト検出を実現する。
要約
本研究では、UniDet3Dと呼ばれる新しい3Dオブジェクト検出モデルを提案している。UniDet3Dは、ScanNet、ARKitScenes、S3DIS、MultiScan、3RScan、ScanNet++の6つの屋内3Dデータセットを統合的に学習することで、一般的な屋内環境でより高精度な3Dオブジェクト検出を実現する。
具体的な特徴は以下の通り:
- 単純かつ効果的なトランスフォーマーエンコーダーアーキテクチャを採用し、位置エンコーディングやクロスアテンションなどの複雑な機構を排除することで、軽量で高速な推論を実現している。
- 複数のデータセットのラベルスペースを統一することで、データセット間の知識を効果的に共有できるようにしている。
- 従来の手法と比べて、ScanNet、ARKitScenes、S3DIS、MultiScan、3RScan、ScanNet++の6つのベンチマークで大幅な精度向上を達成している。
UniDet3Dは、限られた単一のデータセットでは難しい一般的な3Dオブジェクト検出を実現するための有効な手法であると言える。
統計
ScanNetデータセットでは、従来手法と比べて1.1 mAP50の精度向上を達成した。
ARKitScenesデータセットでは、19.4 mAP25の精度向上を達成した。
S3DISデータセットでは、9.1 mAP50の精度向上を達成した。
MultiScanデータセットでは、9.3 mAP50の精度向上を達成した。
3RScanデータセットでは、3.2 mAP50の精度向上を達成した。
ScanNet++データセットでは、2.7 mAP50の精度向上を達成した。
引用
"Growing customer demand for smart solutions in robotics and augmented reality has attracted considerable attention to 3D object detection from point clouds."
"None of the datasets contains data of sufficient diversity and volume to train a general model which can be transferred between datasets without severe loss of quality."
"By unifying different label spaces, UniDet3D enables learning a strong representation across multiple datasets through a supervised joint training scheme."