本論文は、マルチカメラ検出器向けの頑健な3次元マルチオブジェクトトラッキング手法「RockTrack」を提案する。
まず、信頼性の高い3次元観測を抽出するために、検出器の出力に対して、幾何学フィルタと擬似ビジュアルトラッカーフィルタを適用する。幾何学フィルタは、3次元の偽陽性を効果的に除去し、擬似ビジュアルトラッカーフィルタは、低スコアの検出結果から有効な視覚情報を抽出する。
次に、抽出した3次元観測と2次元外観情報を融合するマルチモーダルデータ関連付けを行う。ここで、新しい多視点外観類似度メトリック(MCAS)を提案し、カメラ間の物体類似性を明示的に表現する。
さらに、関連付けの結果を段階的に推定モジュールに伝播し、観測ノイズをヒューリスティックにモデル化することで、不確実な観測に対するトラッカーの頑健性を高める。
最終的に、RockTrackは、nuScenesビジョントラッキングリーダーボードにおいて59.1%のAMOTAを達成し、最先端の性能を示した。また、CPUのみで実行可能な効率的な計算性能も備えている。
To Another Language
from source content
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Xiaoyu Li, P... ที่ arxiv.org 09-19-2024
https://arxiv.org/pdf/2409.11749.pdfสอบถามเพิ่มเติม