核心概念
本文提出了一種基於門控合成到真實知識轉移的行人過馬路預測方法(Gated-S2R-PCP)。該方法包括三種不同的知識轉移方式,分別用於處理行人位置、視覺特徵和語義深度信息,並通過可學習的門控單元自適應地融合這些知識,以提高行人過馬路預測的性能。
摘要
本文針對行人過馬路預測(PCP)問題,提出了一種基於門控合成到真實知識轉移的方法(Gated-S2R-PCP)。
觀察到不同類型的信息(行人位置、RGB圖像、深度圖像和語義圖像)在合成數據和真實數據之間存在不同程度的分布差異,因此需要採用不同的知識轉移方式。
提出三種知識轉移方式:
知識蒸餾(Knowledge Distiller, KnowD):用於轉移行人位置信息
風格遷移(Style Shifter, StyS):用於轉移RGB圖像特徵
分布逼近(Distribution Approximator, DistA):用於轉移深度和語義圖像特徵
設計可學習的門控單元(Learnable Gated Unit, LGU),自適應地融合不同知識轉移方式的輸出,以獲得最終的行人過馬路預測特徵。
構建了一個新的大規模合成PCP數據集S2R-PCP-3181,包含3181個序列,共489,740幀,包含行人位置、RGB圖像、深度圖像和語義圖像。
在JAAD和PIE真實數據集上驗證了Gated-S2R-PCP的優越性能,優於現有最先進方法。
統計資料
行人位置分布和運動方向分布在合成數據集S2R-PCP-3181和真實數據集PIE中具有相似的特點。
合成數據集S2R-PCP-3181包含3181個序列,共489,740幀,其中包含行人位置、RGB圖像、深度圖像和語義圖像。