核心概念
本文提出了一種名為 SoGAR 的新型自監督視訊模型,用於識別社交群體活動,該模型基於視訊 Transformer 架構,並透過預測具有不同時空特徵的視訊片段來學習上下文資訊,進而準確識別群體活動。
摘要
SoGAR: 基於自監督時空注意力機制的社交群體活動識別
標題: SoGAR: 基於自監督時空注意力機制的社交群體活動識別
作者: NAGA VS RAVITEJA CHAPPA1, (IEEE 會員), Pha Nguyen1, Alexander H Nelson1, Han-Seok Seo2, Xin Li4, Page D Dobbs3 and Khoa Luu1, (IEEE 會員)
單位:
1美國阿肯色大學電機工程與計算機科學系
2美國阿肯色大學食品科學系
3美國紐約州立大學奧爾巴尼分校計算機科學系
4美國阿肯色大學健康、人類表現與休閒系
期刊: IEEE Access
發表日期: xxxx 年 00 月 00 日
DOI: 10.1109/ACCESS.2024.0429000
本研究旨在開發一種名為 SoGAR 的新型自監督視訊模型,用於識別社交群體活動。該模型基於視訊 Transformer 架構,並透過預測具有不同時空特徵的視訊片段來學習上下文資訊,進而準確識別群體活動。