本文提出了一種名為多鏡頭物體追蹤轉換器 (MCTR) 的新方法,用於跨多個鏡頭追蹤多個物體。MCTR 建立在像 DETR 這樣的端到端物體檢測模型之上,增加了以下兩個新組件:
跟蹤模組:維護一組跟蹤嵌入,並使用來自各個鏡頭檢測嵌入的信息來更新它們。這些跟蹤嵌入包含了跨鏡頭和時間的物體全局信息。
關聯模組:基於檢測嵌入和跟蹤嵌入之間的信息,生成檢測與跟蹤之間的概率關聯。
MCTR 採用端到端的架構,減少了對啟發式組件的依賴,將整個追蹤過程整合到一個連貫的、數據驅動的框架中。
為了維持跨鏡頭和時間的物體身份一致性,MCTR 使用了一種新的損失函數,計算檢測屬於同一個物體跟蹤的概率,並用於端到端的模型訓練。
實驗結果表明,MCTR 在 MMPTrack 和 AI City Challenge 數據集上優於單鏡頭端到端追蹤方法,並展示了其在處理遮擋等複雜情況下的優勢。此外,MCTR 還能夠利用跟蹤嵌入預測被遮擋物體的位置,進一步提高了性能。
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Alexandru Ni... um arxiv.org 09-12-2024
https://arxiv.org/pdf/2408.13243.pdfTiefere Fragen