本論文は、単眼3D物体検出(Mono3D)の性能向上に取り組んでいる。Mono3Dは自動運転分野で重要な研究課題であるが、単眼カメラの深度情報の曖昧さが課題となっている。
これまでの手法では、LiDARベースの教師モデルから直接3D情報を蒸留しようとしていたが、特徴表現の違いが大きすぎて効率的な蒸留ができていなかった。
そこで本手法では、以下の2つのアプローチを提案している:
さらに、学生モデルのBEV特徴表現を改善するためのSpatial Alignment Moduleも提案している。
実験結果では、KITTI 3D物体検出ベンチマークにおいて、従来手法を大きく上回る新しい最高性能を達成している。本手法は単眼カメラを用いた低コストな3D物体検出に有効な解決策を提示している。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Hou-I Liu,Ch... lúc arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.04910.pdfYêu cầu sâu hơn