本論文は、鳥瞰図(Bird's Eye View、BEV)表現の学習における発散する学習コストの問題に取り組んでいる。従来の手法では、深層で大規模なアーキテクチャを用いることで高解像度のBEVを生成しようとするが、これにより大量のバックプロパゲーションメモリと計算遅延が発生し、実用的な高解像度BEVマップの構築が困難になっていた。
提案手法のTrumpet Neural Network(TNN)は、低解像度のBEV特徴を入力として、局所的な復元を行うことで高解像度のBEVマップを効率的に生成する。具体的には、低解像度のBEV特徴を入力として、畳み込みネットワークとピクセルシャッフルを用いて、高解像度のBEV特徴を復元する。これにより、発散する学習コストの問題を解決しつつ、高精度なBEVマップの構築を実現している。
実験の結果、提案手法は従来手法に比べて8.2%のmIoUの改善を示し、カメラ、LiDAR、およびそれらの融合モダリティにおいても高い汎用性を示した。これにより、提案手法は安全な自動運転に不可欠な高精度なBEVマップ構築の新しい基準を確立した。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Minsu Kim,Gi... klokken arxiv.org 05-03-2024
https://arxiv.org/pdf/2405.01016.pdfDypere Spørsmål