المفاهيم الأساسية
UniBEVは、LiDARとカメラの入力を統一的にBEVに変換し、チャンネル正規化重み付け融合を用いることで、センサーモダリティが欠落した場合でも高い性能を発揮する。
الملخص
本研究では、ロバストな多モーダル3Dオブジェクト検出モデルUniBEVを提案している。UniBEVは以下の特徴を持つ:
- LiDARとカメラの特徴をそれぞれ統一的なBEVエンコーダを用いて変換し、モダリティ間の整合性を高める。
- 単純な平均融合やチャンネル正規化重み付け融合を用いることで、モダリティが欠落した場合でも意味のある特徴を維持できる。
- モダリティ間の特徴を共有するクエリを用いることで、BEVエンコーダ間の相互作用を促進し、特徴の整合性を向上させる。
実験の結果、UniBEVは既存手法であるBEVFusionやMetaBEVと比べて、LiDAR+カメラ、LiDAR単体、カメラ単体の全ての入力条件においてより高い性能を示した。特にカメラ単体の入力に対する性能が大幅に向上しており、UniBEVの特徴整合性の高さが示された。また、チャンネル正規化重み付け融合は単純な平均融合よりも優れており、モダリティ欠落時の性能向上に寄与することが確認された。
الإحصائيات
LiDARとカメラを併用した場合、UniBEVは64.2%のmAPを達成した。
LiDAR単体の入力に対して、UniBEVは58.2%のmAPを達成した。
カメラ単体の入力に対して、UniBEVは35.0%のmAPを達成した。
3つの入力条件の平均mAPは52.5%となり、既存手法を大きく上回った。
اقتباسات
"UniBEVは、LiDARとカメラの入力を統一的にBEVに変換し、チャンネル正規化重み付け融合を用いることで、センサーモダリティが欠落した場合でも高い性能を発揮する。"
"実験の結果、UniBEVはLiDAR+カメラ、LiDAR単体、カメラ単体の全ての入力条件においてより高い性能を示した。特にカメラ単体の入力に対する性能が大幅に向上しており、UniBEVの特徴整合性の高さが示された。"