核心概念
本文提出了一種名為多鏡頭物體追蹤轉換器 (MCTR) 的新方法,利用端到端的架構來跨多個鏡頭追蹤多個物體。MCTR 建立在像 DETR 這樣的端到端物體檢測模型之上,增加了跟蹤模組和關聯模組,以實現跨鏡頭的物體追蹤。
摘要
本文提出了一種名為多鏡頭物體追蹤轉換器 (MCTR) 的新方法,用於跨多個鏡頭追蹤多個物體。MCTR 建立在像 DETR 這樣的端到端物體檢測模型之上,增加了以下兩個新組件:
跟蹤模組:維護一組跟蹤嵌入,並使用來自各個鏡頭檢測嵌入的信息來更新它們。這些跟蹤嵌入包含了跨鏡頭和時間的物體全局信息。
關聯模組:基於檢測嵌入和跟蹤嵌入之間的信息,生成檢測與跟蹤之間的概率關聯。
MCTR 採用端到端的架構,減少了對啟發式組件的依賴,將整個追蹤過程整合到一個連貫的、數據驅動的框架中。
為了維持跨鏡頭和時間的物體身份一致性,MCTR 使用了一種新的損失函數,計算檢測屬於同一個物體跟蹤的概率,並用於端到端的模型訓練。
實驗結果表明,MCTR 在 MMPTrack 和 AI City Challenge 數據集上優於單鏡頭端到端追蹤方法,並展示了其在處理遮擋等複雜情況下的優勢。此外,MCTR 還能夠利用跟蹤嵌入預測被遮擋物體的位置,進一步提高了性能。
統計資料
在工業環境中,MCTR 的 HOTA 得分為 71.81,IDF1 得分為 80.21。
在零售環境中,MCTR 的 HOTA 得分為 54.28,IDF1 得分為 52.41。使用跟蹤嵌入預測被遮擋物體的位置後,HOTA 得分提高到 88.73。
引述
"MCTR 建立在像 DETR 這樣的端到端物體檢測模型之上,增加了跟蹤模組和關聯模組,以實現跨鏡頭的物體追蹤。"
"為了維持跨鏡頭和時間的物體身份一致性,MCTR 使用了一種新的損失函數,計算檢測屬於同一個物體跟蹤的概率,並用於端到端的模型訓練。"