本論文では、3次元物体検出のための新しいアーキテクチャであるPVTransformerを提案している。従来の3次元物体検出器は、PointNetを使ってスパースな点群をボクセル表現に集約しているが、単純なプーリング操作によって情報が失われてしまう問題がある。
PVTransformerでは、この問題を解決するために、Transformerベースの点から体積への特徴集約手法を導入している。具体的には、各ボクセル内の点をトークンとして扱い、注意機構を使って点特徴を効率的に体積特徴に変換する。これにより、プーリングによる情報ボトルネックを回避し、より表現力の高い特徴抽出が可能になる。
実験では、Waymo Open Datasetを用いて評価を行い、従来手法と比較して大幅な性能向上を示している。特に、最新の手法であるSWFormerと比べて1.7 mAPH L2の改善を達成し、新しい最高精度を達成している。
さらに、PVTransformerのスケーラビリティについても検討しており、PointNetベースの手法と比較して優れた拡張性を持つことを示している。これは、Transformerベースの点から体積への特徴集約が、単純なプーリングよりも効果的にスケールアップできることを意味している。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問