Core Concepts
BEV空間でのLiDAR-Camera 3Dオブジェクト検出におけるクロスモーダルコンフリクトの排除
Abstract
最近の3Dオブジェクト検出は、LiDARポイントクラウドとカメラRGB画像から情報を組み合わせて精度と信頼性を向上させることが重要。
BEV空間はマルチモーダル特徴融合に適した中間表現を提供するが、既存の融合戦略はクロスモーダルコンフリクトを無視している。
クロスモーダルコンフリクトは、外在的な衝突と内在的な衝突から生じ、正確な予測を妨げる可能性がある。
新しいECFusionメソッドは、BEV空間での外在的/内在的な衝突を明示的に排除し、改善されたマルチモーダルBEV特徴を生成する。
INTRODUCTION
3Dオブジェクト検出は自動運転において重要であり、LiDARポイントクラウドとカメラRGB画像から情報を組み合わせることが一般的。
BEV空間ではマルチモーダル特徴融合に適しているが、既存の方法ではクロスモーダルコンフリクトが無視されている。
METHODOLOGY
ECFusionメソッドではSFAモジュールとDQRメカニズムを導入し、外在的/内在的な衝突を解消している。
SFAモジュールはLiDARとカメラBEV特徴を整列させて融合前に空間分布の不一致を緩和する。
DQRメカニズムは溶解したオブジェクト問い合わせを回復し、単一モダリティ特徴から有用なオブジェクト問い合わせを取得する。
EXPERIMENTS
nuScenesデータセットで実験し、ECFusionメソッドが他の手法よりも優れたパフォーマンスを達成していることが示された。
Stats
"我々の方法はnuScenesデータセットで73.4% NDSパフォーマンスを達成"
"LiDARまたはカメラ手法よりも大幅な改善"