Multimodale Fusionsmethode mit raumzeitlichen Sequenzen und Beziehungslernen zur Schätzung von Valenz und Erregung
Eine effiziente Methode zur Fusion multimodaler Daten, die Merkmale aus Videobildern und Audiosegmenten verwendet, um die Valenz und Erregung genau zu schätzen. Die Methode nutzt Temporal Convolutional Networks, um räumlich-zeitliche Zusammenhänge zu erfassen, und einen Transformer-Encoder, um langfristige Abhängigkeiten zu lernen.