核心概念
本文提出了一種跨合成-真實域的視頻人員重識別框架,通過利用合成數據的優勢來提高真實數據上的性能。具體包括:1) 設計了一種自監督的域不變特徵學習策略,從單幀、單視頻和多視頻組合中學習域不變特徵;2) 提出了一種基於自監督ID一致性的師生網絡方案,以提高合成數據訓練的模型在真實數據上的可靠性。
摘要
本文研究了跨域視頻人員重識別的新挑戰,利用合成視頻數據作為源域進行訓練,並在真實世界視頻上進行測試。為此,作者提出了以下創新點:
-
設計了一種自監督的域不變特徵學習策略,從單幀、單視頻和多視頻組合中學習域不變特徵,以有效地從合成源域遷移到真實目標域。
-
提出了一種基於自監督ID一致性的師生網絡方案,以提高合成數據訓練的模型在真實數據上的可靠性。通過聚類的方式估計ID一致性,並將其應用於師生網絡的一致性損失。
-
在五個真實世界數據集上進行了實驗驗證,結果表明所提方法在跨域視頻人員重識別任務上顯著優於現有方法,甚至優於使用真實數據進行訓練。
-
分析發現,合成數據的樣本豐富性可以縮小合成和真實數據之間的域差距,小於不同真實數據集之間的差距,這解釋了為什麼合成數據在跨域場景下可以優於真實數據。
统计
合成數據SVReID包含3,187個序列,來自333個身份,平均每個序列有121幀。
真實數據MARS包含19,000個序列,來自1,261個身份,平均每個序列有59幀。
真實數據iLIDS-VID包含600個序列,來自300個身份,平均每個序列有70幀。
真實數據PRID包含400個序列,來自200個身份,平均每個序列有108幀。
真實數據LS-VID包含14,943個序列,來自3,772個身份,平均每個序列有200幀。
真實數據CCVID包含2,856個序列,來自226個身份,平均每個序列有121幀。
引用
"本文研究了跨域視頻人員重識別的新挑戰,利用合成視頻數據作為源域進行訓練,並在真實世界視頻上進行測試。"
"分析發現,合成數據的樣本豐富性可以縮小合成和真實數據之間的域差距,小於不同真實數據集之間的差距,這解釋了為什麼合成數據在跨域場景下可以優於真實數據。"