Ein neues Rahmenwerk namens Räumlich-zeitliches teilbewusstes Netzwerk (StepNet) wird vorgestellt, das auf RGB-Teilen basiert. Es besteht aus zwei Modulen: Teil-räumliche Modellierung und Teil-zeitliche Modellierung. Diese Module erfassen die erscheinungsbasierten Eigenschaften wie Hände und Gesichter im Merkmalsraum sowie die relevanten Attribute über die Zeit.
Unser Modell nutzt eine dynamische Graphkorrelation, um die Beziehungen zwischen Körpergelenken effektiv zu erfassen, und eine parallele zeitliche Konvolution, um komplexe Bewegungsmuster zu modellieren, um so eine hochgenaue und effiziente skelettbasierte Gebärdenspracherkennung zu erreichen.