本文提出了一種新的雙路徑架構,用於識別實時療程情境中的鬆散社交互動。這種互動通常是異步和不對稱的,兩個人執行不同的原子動作來完成整體任務,而不需要直接的身體接觸。
首先,該架構使用3D-CNN主幹從兩個不同的輸入(領導者和助手)中提取多尺度視覺特徵。然後,通過抽象投影模塊將這些特徵編碼為全局抽象特徵。最後,使用一種新的全局層注意力(GLA)機制來融合這些特徵,以識別整個活動。
該方法在真實世界的自閉症診斷數據集和公開可用的自閉症數據集上進行了評估,取得了最先進的結果。此外,還在NTU-RGB+D數據集上進行了實驗,以研究不同類型的社交互動(緊密互動)。結果表明,不同的互動需要不同的網絡設計策略。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Abid... alle arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.20270.pdfDomande più approfondite