Effiziente Erkennung von Emotionen in Gesprächen durch eine lehrende multimodale Fusionsarchitektur
Eine lehrende multimodale Fusionsarchitektur (TelME) verbessert die Leistung der Emotionserkennung in Gesprächen, indem sie die Stärken der Textmodelle nutzt, um die schwächeren Audio- und Videomodelle zu verstärken.