핵심 개념
ポイントクラウドを柱状に変換し、ピラミッド型エンコーディングピラー特徴エンコーダー(PE-PFE)を使って特徴表現を強化し、モダリティ対応のトランスフォーマーベースのバックボーンを設計することで、単一物体追跡の性能を向上させる。
초록
本論文は、ポイントクラウドを使った単一物体追跡(3D SOT)の課題に取り組んでいる。
まず、疎なポイントクラウドを密な柱状表現に変換し、ピラミッド型のエンコーディングを行うPE-PFEを提案する。これにより、ポイントの特徴表現を強化し、ネットワークの最適化を促進する。
次に、画像ドメインのバックボーン設計がポイントクラウドに適していないことに着目し、モダリティ対応のトランスフォーマーベースのバックボーンを設計する。具体的には、早期の段階でより多くの計算リソースを割り当てることで、ポイントクラウドの幾何学的情報をより効果的に捉えられるようにする。
最後に、上記の設計を組み合わせたPillarTrackネットワークを構築する。KITTI及びnuScenesデータセットでの実験結果から、提案手法が高速かつ高精度な単一物体追跡を実現していることが示された。
통계
提案手法PillarTrackはKITTIデータセットにおいて、成功率(Success)で72.1%、精度(Precision)で82.1%を達成し、ベースラインよりも3.2ポイント、2.5ポイントの向上を示した。
nuScenesデータセットでは、平均クラス成功率で47.70%、平均フレーム成功率で44.59%を達成し、ベースラインに比べて8.21ポイント、4.39ポイントの向上を示した。
인용구
"ポイントクラウドを柱状に変換し、ピラミッド型エンコーディングピラー特徴エンコーダー(PE-PFE)を使って特徴表現を強化し、モダリティ対応のトランスフォーマーベースのバックボーンを設計することで、単一物体追跡の性能を向上させる。"
"提案手法PillarTrackはKITTIデータセットにおいて、成功率(Success)で72.1%、精度(Precision)で82.1%を達成し、ベースラインよりも3.2ポイント、2.5ポイントの向上を示した。"