Umfassendes Verständnis sozialer Dynamiken in überfüllten Panoramavideos durch spatio-temporale Nähebeziehungen
Das vorgeschlagene SPDP-Net-Netzwerk nutzt spatio-temporale Nähebeziehungen zwischen Individuen, um soziale Dynamiken in überfüllten Panoramavideos präzise zu erfassen. Darüber hinaus fördert der Dual-Path-Aktivitäts-Transformer (DPATr) die wechselseitige Verstärkung von Kontextinformationen auf individueller, sozialer und globaler Ebene, um die Leistung bei der Erkennung von Aktivitäten auf mehreren Ebenen zu verbessern.