核心概念
TrackSSM是一個基於編碼器-解碼器架構的簡單高效運動模型,利用數據相關的狀態空間模型(SSM)來完成軌跡的時間運動預測。
摘要
本文提出了TrackSSM,一個基於編碼器-解碼器架構的通用運動預測模型。TrackSSM由兩個主要部分組成:
-
Mamba編碼器:使用堆疊的Mamba模塊來聚合歷史軌跡的位置和運動信息,獲得軌跡流信息。
-
流解碼器:由級聯的Flow-SSM模塊組成,可以利用編碼器獲得的流信息來引導當前幀軌跡的時間位置預測。
此外,作者還提出了一種逐步線性(S2L)訓練策略,通過在當前幀和前一幀之間進行線性插值來構建逐步線性訓練伪標籤,引導邊界框完成時間遷移。
實驗結果表明,TrackSSM在不同場景下都能達到出色的追蹤性能,並且具有較高的推理效率,展現了其作為通用運動預測器的潛力。
统计
在MOT17測試集上,TrackSSM與ByteTrack(使用卡爾曼濾波器作為運動模型)的性能相當。
在DanceTrack測試集上,ByteTrack集成TrackSSM的HOTA指標提升了10.9。
在SportsMOT測試集上,ByteTrack集成TrackSSM的HOTA指標提升了11.0。
引用
"TrackSSM利用簡單的Mamba-Block來構建歷史軌跡的運動編碼器,形成具有編碼器-解碼器結構的時間運動模型。"
"TrackSSM適用於各種追蹤場景,並在多個基準上實現了出色的追蹤性能,進一步拓展了SSM類時間運動模型在多目標追蹤任務中的潛力。"