Core Concepts
カメラ画像特徴量とレーダーポイントクラウド特徴量を空間的に整列させ、相補的に融合することで、単一センサーを上回る3D物体検出性能を実現する。
Abstract
本論文では、自動運転車の知覚システムにおいて、カメラとレーダーセンサーデータを融合する新しい手法を提案している。
まず、カメラ画像処理ネットワークとレーダーポイントクラウド処理ネットワークを別々に構築する。カメラネットワークは2Dオブジェクト検出を行い、レーダーネットワークは3D空間でのオブジェクト検出を行う。
次に、提案するCross-Domain Spatial Matching (CDSM)融合ブロックを用いて、カメラ特徴量とレーダー特徴量を空間的に整列させ、相補的に融合する。具体的には、カメラ特徴量を3D空間に変換し、レーダー特徴量と整列させる。その後、統合された特徴量を用いて最終的な3D物体検出を行う。
実験では、NuScenesデータセットを用いて提案手法の有効性を検証している。単一センサーを用いた手法と比較して、提案手法は優れた物体検出性能を示している。また、他の最新の融合手法とも比較し、高い性能を達成している。
Stats
カメラ視認性が40%以上の物体ラベルは全体の63%である。
LiDARポイントが含まれるラベルは82%、レーダーポイントが含まれるラベルは32%である。
LiDARラベルあたりの平均ポイント数は97、レーダーラベルあたりの平均ポイント数は2.26である。
Quotes
"カメラ画像特徴量とレーダーポイントクラウド特徴量を空間的に整列させ、相補的に融合することで、単一センサーを上回る3D物体検出性能を実現する。"
"提案手法は、単一センサーを用いた手法と比較して優れた物体検出性能を示し、他の最新の融合手法とも競争できる高い性能を達成している。"