核心概念
提出了一種利用文本提示引導的特徵解耦方法(ProFD),以解決遮擋人員重識別問題。ProFD通過利用CLIP預訓練的知識,生成更好對齊的身體部位特徵,並採用自蒸餾策略避免在微調過程中遺忘預訓練知識。
摘要
本文提出了一種Prompt-guided Feature Disentangling (ProFD)框架,以解決遮擋人員重識別問題。
為了減輕遮擋造成的缺失信息問題,ProFD設計了一組特定於身體部位的文本提示,利用CLIP預訓練的知識來輔助模型生成更好對齊的身體部位特徵。同時,ProFD還設計了一個輔助的語義分割任務,以實現視覺和文本特徵的初步空間對齊。
為了減輕來自外部模型的噪聲空間信息的影響,ProFD提出了一個混合注意力解碼器,包含空間感知注意力和語義感知注意力。前者利用外部的粗糙和嘈雜的分割掩碼來確保部位特徵的空間一致性,後者則依賴於文本提示與視覺tokens之間的語義相關性,以減輕噪聲的影響。
為了避免在微調過程中出現災難性遺忘,ProFD採用了一種自蒸餾策略,利用記憶庫保留CLIP預訓練的知識,以減輕過度擬合。
實驗結果表明,ProFD在遮擋人員重識別數據集上取得了最先進的性能,並且在全面人員重識別任務上也保持了競爭力。
統計資料
遮擋會導致人體某些部位的視覺信息缺失,顯著降低這些部位在數據集中的出現頻率。
由於外部模型訓練數據與重識別數據集之間的域差異,生成的偽標籤不可避免地包含錯誤,從而引入噪聲。
引述
"遮擋可能導致人體某些部位的視覺信息缺失,顯著降低這些部位在數據集中的出現頻率。"
"由於外部模型訓練數據與重識別數據集之間的域差異,生成的偽標籤不可避免地包含錯誤,從而引入噪聲。"