核心概念
本文提出了一種新的多重資訊提示學習(MIPL)框架,用於解決換衣人員再識別(CC-ReID)問題,該方法通過結合服裝資訊剝離、生物特徵引導注意力和雙長度混合區塊等模組,有效地學習了不受服裝變化影響的身份魯棒特徵,並在多個公開資料集上取得了顯著的效能提升。
Multiple Information Prompt Learning for Cloth-Changing Person Re-Identification
本研究論文提出了一種名為多重資訊提示學習(MIPL)的新演算法,旨在解決換衣人員再識別(CC-ReID)的挑戰。CC-ReID 旨在識別在不同監視器畫面中出現的行人,即使他們已經更換了服裝。由於服裝外觀的變化會造成顯著的視覺差異,這項任務在電腦視覺領域中極具挑戰性。
傳統的 ReID 方法通常依賴於行人在不同畫面中穿著相同服裝的假設。然而,在現實世界中,行人的外觀會隨著時間推移而發生顯著變化,這使得模型難以學習有效的識別特徵。
為了解決這個問題,MIPL 框架採用了多資訊提示學習策略,結合了三個關鍵模組:
服裝資訊剝離(CIS)模組: 該模組旨在從原始圖像特徵中有效地分離服裝資訊,並抵消服裝外觀的影響。它利用服裝屬性文字描述的提示,建立視覺表示和高層語言描述之間的有效對應關係,並約束模型準確定位服裝區域,將其與非服裝區域分離。
生物特徵引導注意力(BGA)模組: 該模組旨在通過局部獨特的生物資訊注意力提示,明確地提示模型學習與身份密切相關的生物關鍵特徵。它利用人體解析模型獲取與原始圖像相對應的生物關鍵資訊遮罩,例如頭部、手臂、左右腳和腿部。通過將遮罩圖像與原始圖像組合,獲得生物資訊圖像,並將其輸入圖像編碼器以獲得生物特徵嵌入。
雙長度混合區塊(DHP)模組: 該模組旨在通過特殊的特徵洗牌和分組操作,從特徵本身更全面地探索具有多樣化覆蓋範圍的判別資訊,並減輕特徵偏差的影響。它將原始特徵進行區塊嵌入隨機洗牌操作,然後將洗牌後的特徵截斷並分成三組具有兩種長度的特徵,並分別連接共享的類別標記。
通過將 CIS、BGA 和 DHP 模組整合到基準模型中,MIPL 框架能夠同時獲取多方面的資訊提示,並提取更有效的身份魯棒特徵。實驗結果表明,MIPL 在五個公開的換衣人員 ReID 資料集(PRCC、LTCC、Celeb-reID、Celeb-reID-light 和 CSCC)上均取得了顯著的效能提升,證明了其有效性和魯棒性。
統計資料
在 LTCC 資料集上,MIPL 的 mAP 和 rank-1 準確率分別為 38.1% 和 74.8%,而 Baseline 的相應效能分別為 33.5% 和 72.0%。
在 PRCC 資料集上,MIPL 的 mAP 和 rank-1 分別為 64.8% 和 69.2%,而 Baseline 的相應效能分別為 56.7% 和 61.5%。
採用重疊區塊增強策略後,MIPL 的效能得到進一步提升,MIPL* 的 mAP 和 Rank-1 準確率分別達到 67.0% 和 71.0%。
在 Celeb-reID-light 資料集上,PGAL 的 mAP 和 Rank-1 分別為 23.3% 和 40.4%,而 MIPL 的相應效能提升了 24.1%(mAP)和 25.6%(Rank-1)。
在 LTCC 資料集上,CT-Net 的 mAP 和 Rank-1 分別為 37.5% 和 72.4%,而 MIPL 的 mAP 和 Rank-1 分別為 38.1% 和 74.8%,分別提高了 0.6% 和 2.4%。
在 PRCC 資料集上,ACID 的 mAP/Rank-1 為 66.1%/55.4%,而 MIPL 的 mAP/Rank-1 為 64.8%/69.2%。
在 Celeb-reID 資料集上,MBUNet 演算法的 mAP 和 rank-1 分別為 12.8% 和 55.5%,而 MIPL 演算法的相應效能顯示 mAP 提高了 20.4%,Rank-1 提高了 17.8%。
在 LTCC 資料集上,ACID 的 mAP/Rank-1 為 14.5%/29.1%,而 MIPL 的 mAP/Rank-1 為 38.1%/74.8%。
深入探究
在實際應用中,如何有效地收集和標註大規模的換衣人員資料集,以進一步提升 MIPL 模型的效能?
收集和標註大規模換衣人員資料集確實是提升 MIPL 模型效能的關鍵。以下是一些建議:
1. 利用現有資源,擴展資料集規模:
結合多個現有資料集: 可以整合 PRCC、LTCC、Celeb-reID 等公開資料集,擴大資料規模和場景多樣性。
利用合成資料: 可以利用 3D 建模軟體生成虛擬人物,並結合服裝材質貼圖生成大量不同服裝、姿態、視角的合成圖像,豐富資料集的多樣性。
2. 設計高效的標註策略,降低標註成本:
自動化標註: 可以利用目標檢測、姿態估計、語義分割等技術自動標註人物位置、關鍵點、服裝區域等資訊,減少人工標註的工作量。
半自動化標註: 可以先利用自動化方法進行預標註,再由人工進行校驗和修正,提高標註效率和準確性。
眾包標註: 可以利用網路平台發佈標註任務,吸引大量用戶參與標註,快速完成大規模資料集的標註工作。
3. 關注資料集品質,提升模型泛化能力:
場景多樣性: 資料集應包含不同場景(室內、室外、商場、街道等)的圖像,以提升模型對不同環境的適應性。
服裝多樣性: 資料集應包含不同類型、顏色、款式的服裝,以提升模型對服裝變化的魯棒性。
姿態多樣性: 資料集應包含不同姿態(站立、行走、奔跑等)的人物圖像,以提升模型對姿態變化的魯棒性。
除了服裝資訊、生物特徵和區塊資訊外,是否還有其他資訊可以被用於提示模型學習更魯棒的身份特徵?
是的,除了服裝資訊、生物特徵和區塊資訊外,還可以考慮以下資訊來提示模型學習更魯棒的身份特徵:
步態資訊: 步態是人體運動的獨特模式,與服裝無關,可以作為一種有效的身份識別線索。可以利用步態識別模型提取步態特徵,並將其作為提示資訊輸入 MIPL 模型。
攜帶物品資訊: 人們經常攜帶一些固定的物品,例如背包、手提包等,這些物品的顏色、款式等資訊也可以作為身份識別的線索。可以利用目標檢測模型識別攜帶物品,並提取其特徵作為提示資訊。
上下文資訊: 人們通常在特定的時間和地點出現,例如經常光顧的商店、工作地點等。這些上下文資訊可以作為身份識別的輔助線索。可以利用場景識別模型識別場景,並將其作為提示資訊輸入模型。
語義資訊: 可以利用自然語言處理技術提取圖像中的語義資訊,例如人物的性別、年齡、職業等,這些資訊也可以作為身份識別的線索。
MIPL 模型是否可以被應用於其他與人員識別相關的任務,例如行人重識別、姿態估計和步態識別?
MIPL 模型主要針對換衣人員重識別任務設計,但其核心思想可以應用於其他與人員識別相關的任務,例如:
行人重識別 (Person Re-identification): MIPL 模型中的 CIS 模組可以去除服裝資訊的干擾,BGA 模組可以強化生物特徵的學習,DHP 模組可以提升模型對遮擋和姿態變化的魯棒性,這些都有助於提升行人重識別的效能。
姿態估計 (Pose Estimation): MIPL 模型中的 BGA 模組可以強化對人體關鍵點的關注,這對於姿態估計任務非常有幫助。可以將 MIPL 模型中的 BGA 模組遷移到姿態估計模型中,提升模型對遮擋和服裝變化的魯棒性。
步態識別 (Gait Recognition): MIPL 模型中的 DHP 模組可以學習人體運動的時序特徵,這對於步態識別任務非常重要。可以將 MIPL 模型中的 DHP 模組遷移到步態識別模型中,提升模型對視角變化和遮擋的魯棒性。
總之,MIPL 模型的核心思想具有較強的泛化能力,可以應用於其他與人員識別相關的任務,並取得一定的效能提升。