本文提出了一種以人物-物品互動為中心的方法來進行組合動作識別。首先,作者設計了一個融合框架-軌跡互動編碼器,能夠捕捉人物和物品之間的細粒度互動以及長期互動。這些互動表示被稱為空間-時間互動(STI)令牌。
接下來,作者提出了一個全局運動注入變換器,將STI令牌與來自視頻的全局運動信息相融合。這種融合能夠提供額外的上下文線索,有助於區分類似的動作。
實驗結果表明,該方法在Something-Else數據集上取得了最新的最佳成績,顯著優於之前的基於物品的方法。作者的互動建模方法能夠有效地捕捉人物和物品之間的關係,從而實現更好的組合動作識別性能。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询