Unser Simba-Modell integriert Mamba, ein selektives strukturiertes Zustandsraumsequenzmodell, in eine neuartige Encoder-Decoder-Architektur mit einem Shift-GCN-Rückgrat, um die Herausforderung der effizienten Modellierung von Langzeitsequenzen in Skelett-Aktionserkennungsaufgaben anzugehen.
Eine neuartige Methode, die Seiteninfo und doppelte Prompt-Lernung für die nullbasierte Skelett-Aktionserkennung (STAR) nutzt, um die Feinabstimmung zwischen Skelett- und semantischem Raum zu verbessern und hochähnliche Aktionen besser zu unterscheiden.