核心概念
本文全面回顧了動作理解領域的進展,特別關注於動作識別、預測和預期三大時間範圍內的挑戰,並探討了未來的研究方向。
簡介
動作理解已從單純的動作識別轉變為更廣泛的領域,涵蓋預測和預期等多模態輸入任務。
本綜述重點關注動作理解領域的進展、挑戰和未來方向。
動作理解的認知面向
理解執行的動作:區分相似動作、概念化動作執行方式。
確定動作目標:與動作執行和他人動作感知相關的即時目標。
確定演員意圖:識別執行動作的高級目標和動機。
本綜述的分類
識別:從完整觀察到的動作中推斷信息(例如,動作類別、語義)。
預測:根據尚未完成動作的部分觀察結果進行預測。
預期:利用當前觀察到的動作來推斷尚未觀察到的未來動作。
動作建模的挑戰
視覺輸入多樣性:視角、遮擋、背景噪聲、光照條件、動作執行和持續時間的差異。
語義目標多樣性:需要更高級別的理解,視覺輸入和模型輸出之間的關係更加複雜。
詞彙限制:動作類別通常是有限的,模型對開放集或跨域設置的泛化能力有限。
類間差異有限:影響視覺上相似動作的粗粒度概念的良好表示性能,對於需要細粒度語義的任务更為普遍。
視頻動作建模方法
分離視覺和時間信息
追蹤和模板匹配:早期工作使用模板匹配來定位動作,但靈活性有限。
局部描述符:通過關聯局部特徵變化與動作來表示動作,例如姿態基元、時間區間、圖像結構等。
空間卷積:使用 CNN 從視覺輸入中提取局部模式,例如雙流模型、3D CNN 等。
時間遞歸:使用循環層從靜態幀特徵中提取運動模式,例如卷積 LSTM 等。
聯合編碼空間和時間
基於部分的表示:例如時空興趣點(STIP)及其變體。
整體隨機表示:基於全局信息對動作進行建模,例如輪廓、動作描述符等。
3D CNN:使用 3D 時空核聯合編碼空間和時間,例如 C3D、I3D 等。
時空注意力:學習空間和時間上的特徵對應關係,例如 Transformer 模型等。
視頻-語言模型:利用大型語言模型(LLM)的語言語義作為視覺任務的監督信號。
總結
本綜述回顧了動作理解領域的進展,特別關注於動作識別、預測和預期三大時間範圍內的挑戰。文章還討論了常用的數據集和基準,並概述了未來的研究方向。