本論文は、学習型鳥瞰図エンコーダの時間的集約メカニズムについて調査し、比較実験を行っている。その上で、カメラ画像と鳥瞰図空間の時間的集約を組み合わせた新しいモデル「TempBEV」を提案している。
調査では、時間的集約の演算子(注意機構、畳み込み、最大プーリング)、再帰的/並列集約、集約特徴空間(画像空間、鳥瞰図空間)、動きの表現方法について、既存研究を整理している。比較実験の結果、画像空間と鳥瞰図空間の時間的集約には相補的な強みがあることが明らかになった。
提案するTempBEVモデルでは、画像空間に光流推定に基づく時間的集約を、鳥瞰図空間に再帰的な集約を組み合わせている。実験の結果、TempBEVは既存手法に比べて3D物体検出とBEVセグメンテーションの性能を大幅に向上させることができた。これは、画像空間と鳥瞰図空間の時間的集約の相乗効果によるものと考えられる。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Thomas Monni... at arxiv.org 04-19-2024
https://arxiv.org/pdf/2404.11803.pdfDeeper Inquiries