核心概念
本文提出了一種名為 MISSIONGNN 的新型分層圖神經網路 (GNN) 模型,用於弱監督影片異常識別 (VAR),該模型利用自動生成的任務導向知識圖,在不依賴大量多模態模型梯度計算的情況下,實現了高效且適用於即時應用的影片分析。
摘要
基於分層多模態圖神經網路的弱監督影片異常識別,結合任務導向知識圖生成:MissionGNN 論文摘要
論文資訊
Yun, S., Masukawa, R., Na, M., & Imani, M. (2024). MISSIONGNN: Hierarchical Multimodal GNN-based Weakly Supervised Video Anomaly Recognition with Mission-Specific Knowledge Graph Generation. arXiv preprint arXiv:2406.18815v2.
研究目標
本研究旨在解決弱監督影片異常識別 (VAR) 中,因異常事件的稀有性和逐幀標註的不切實際性所帶來的挑戰。
方法
- 任務導向知識圖生成: 利用大型語言模型 (LLM) 和 ConceptNet 自動生成與特定異常類型相關的知識圖 (KG)。
- 分層多模態圖神經網路: 提出一個新型分層 GNN 模型,對每個任務導向 KG 進行推理,並結合多模態嵌入來理解影片幀。
- 短期時間模型: 使用一個小型 Transformer 模型來捕捉短期時間關係,避免了對長期影片序列的依賴,使其適用於即時分析。
- 弱監督逐幀訓練: 引入衰減閾值的概念,將正常幀與異常標註影片中的幀分開,實現完全逐幀訓練和推理。
主要發現
- 與需要大量梯度計算的大型多模態模型相比,MISSIONGNN 在訓練過程中展現出更高的記憶體效率。
- 在 UCF-Crime 和 XD-Violence 數據集上進行的實驗表明,MISSIONGNN 在 VAR 和 VAD 任務中均取得了與當前最佳方法相當或更優的性能。
- 特別是在即時場景下,MISSIONGNN 優於需要完整影片序列進行分析的 AnomalyCLIP,突出了其在需要即時偵測的實際應用中的優勢。
主要結論
MISSIONGNN 為弱監督影片異常識別提供了一種高效且實用的框架,其基於 GNN 的推理方法和任務導向知識圖生成,使其能夠在不依賴於固定影片分段或大量多模態模型梯度計算的情況下,實現準確且適用於即時應用的影片分析。
意義
本研究顯著推進了 VAR 領域的發展,為智慧監控和其他需要即時異常偵測的應用提供了可擴展且實用的解決方案。
局限與未來研究方向
- 任務導向知識圖生成的有效性很大程度上取決於 GPT-4 選擇相關術語的準確性,未來研究可以探索更穩健的 KG 生成方法。
- 衰減閾值方法依賴於靜態超參數,未來工作可以研究在模型訓練過程中動態調整閾值的機制。
統計資料
MISSIONGNN 在 UCF-Crime 數據集上的 VAR 任務中,mAUC 得分比 AnomalyCLIP 高出 6.23%。
在 XD-Violence 數據集上,MISSIONGNN 在 VAD 任務中,AP 得分比 AnomalyCLIP 高出 32.91%。
AnomalyCLIP 在 XD-Violence 數據集上的 VAR 任務中,當限制為 30 幀輸入時,mAP 得分下降了 14.29%。
MISSIONGNN 的 GPU 記憶體消耗量比 ImageBind 模型低 2.66 倍到 5.45 倍。