本文提出了TrackSSM,一個基於編碼器-解碼器架構的通用運動預測模型。TrackSSM由兩個主要部分組成:
Mamba編碼器:使用堆疊的Mamba模塊來聚合歷史軌跡的位置和運動信息,獲得軌跡流信息。
流解碼器:由級聯的Flow-SSM模塊組成,可以利用編碼器獲得的流信息來引導當前幀軌跡的時間位置預測。
此外,作者還提出了一種逐步線性(S2L)訓練策略,通過在當前幀和前一幀之間進行線性插值來構建逐步線性訓練伪標籤,引導邊界框完成時間遷移。
實驗結果表明,TrackSSM在不同場景下都能達到出色的追蹤性能,並且具有較高的推理效率,展現了其作為通用運動預測器的潛力。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Bin Hu, Run ... alle arxiv.org 09-11-2024
https://arxiv.org/pdf/2409.00487.pdfDomande più approfondite