本論文は、マルチビューカメラを用いた3D知覚のための効率的かつ正確なエンドツーエンドフレームワークHENetを提案する。
まず、ハイブリッド画像エンコーディングネットワークを提案する。これは、短期フレームには高解像度入力と大規模なバックボーンを使用し、長期フレームには低解像度入力と小規模なバックボーンを使用することで、大規模エンコーダと長期入力の利点を活かしつつ、計算コストを抑える。
次に、注意機構に基づくテンポラルフィーチャ統合モジュールを提案する。これにより、移動物体の位置合わせを行いながら、マルチフレームのBEVフィーチャを効果的に融合できる。
さらに、3D物体検出とBEVセマンティックセグメンテーションの間のタスク競合を分析し、タスクに適したBEVグリッドサイズを選択し、独立したBEVエンコーダを使用することで、この問題を緩和する。
実験結果は、提案手法がnuScenesベンチマークにおいて、3D物体検出とBEVセマンティックセグメンテーションの両タスクでState-of-the-Artの性能を達成することを示している。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Zhongyu Xia,... at arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02517.pdfDeeper Inquiries