Основные понятия
投影行列を利用して効率的に3DフィーチャーボリュームとグローバルBEVフィーチャーを生成し、それらを融合することで高精度な3D占有予測を実現する。
Аннотация
本論文は、InverseMatrixVT3Dと呼ばれる効率的な3D占有予測手法を提案している。従来の手法は深度推定やトランスフォーマーベースのクエリ処理に依存していたが、本手法では2つの投影行列を用いて静的なマッピング関係を表現し、行列乗算によって効率的に3DフィーチャーボリュームとグローバルBEVフィーチャーを生成する。
具体的には以下の手順で処理を行う:
- 複数カメラ画像からマルチスケールの特徴マップを抽出する
- 予め定義した3Dボリューム空間の各サンプル点をカメラ画像上にプロジェクションし、対応する特徴を集約することで、グローバルBEVフィーチャーとローカル3Dフィーチャーボリュームを生成する
- グローバルBEVフィーチャーとローカル3Dフィーチャーボリュームを融合し、最終的な3Dボリュームを得る
- マルチスケールの監督信号を用いて、各レベルの3Dボリュームを最適化する
本手法は深度推定やトランスフォーマーベースのクエリ処理を必要としないため、シンプルかつ効率的である。実験の結果、nuScenesおよびSemanticKITTIデータセットにおいて、最先端の手法と比較して優れた性能を示し、特に歩行者、自転車、オートバイなどの脆弱な道路利用者の検出精度が高いことが確認された。
Статистика
複数カメラ画像から抽出したマルチスケールの特徴マップを用いて3DフィーチャーボリュームとグローバルBEVフィーチャーを生成している
予め定義した3Dボリューム空間の各サンプル点をカメラ画像上にプロジェクションすることで、特徴の集約を行っている
グローバルBEVフィーチャーとローカル3Dフィーチャーボリュームを融合することで、最終的な3Dボリュームを得ている
マルチスケールの監督信号を用いて、各レベルの3Dボリュームを最適化している