Centrala begrepp
Der Kern dieser Arbeit ist die Entwicklung eines neuartigen GCN-DevLSTM-Netzwerks, das effektiv räumlich-zeitliche Merkmale aus Skelettdaten extrahiert und damit die Leistung bei der skelettbasierten Aktionserkennung deutlich verbessert.
Sammanfattning
Die Autoren stellen ein neues GCN-DevLSTM-Netzwerk für die skelettbasierte Aktionserkennung vor. Das Kernstück ist der DevLSTM-Modul, der die Pfadentwicklung aus der Rauhen-Pfad-Theorie mit LSTM kombiniert, um die zeitlichen Dynamiken effektiv zu erfassen.
Der GCN-Modul nutzt einen nicht-geteilten Graphen, um die räumlichen Beziehungen zwischen Gelenken zu modellieren. Die Autoren zeigen, dass die Kombination von GCN und DevLSTM die Leistung deutlich verbessert und robuster gegenüber unregelmäßiger Abtastung ist.
Darüber hinaus führen die Autoren einen neuartigen Dual-Graph ein, der die Knochenbeziehungen erfasst und die Gesamtleistung weiter steigert. Umfangreiche Experimente auf gängigen Benchmarks zeigen, dass das vorgeschlagene Modell den aktuellen Stand der Technik übertrifft.
Statistik
Die skelettbasierten Aktionsdatensätze NTU-60 und NTU-120 bestehen aus 56.880 bzw. 114.480 Aktionssequenzen mit jeweils 60 bzw. 120 Aktionsklassen.
Der Chalearn2013-Datensatz für Gestenerkennung umfasst 11.116 Skelettbeispiele in 20 Gestenkategorien.
Citat
"Der Kern dieser Arbeit ist die Entwicklung eines neuartigen GCN-DevLSTM-Netzwerks, das effektiv räumlich-zeitliche Merkmale aus Skelettdaten extrahiert und damit die Leistung bei der skelettbasierten Aktionserkennung deutlich verbessert."
"Die Autoren zeigen, dass die Kombination von GCN und DevLSTM die Leistung deutlich verbessert und robuster gegenüber unregelmäßiger Abtastung ist."
"Umfangreiche Experimente auf gängigen Benchmarks zeigen, dass das vorgeschlagene Modell den aktuellen Stand der Technik übertrifft."