Effiziente Erkennung aktiver Sprecher durch Modellierung von Langzeit-Intra-Sprecher- und Kurzzeit-Inter-Sprecher-Kontext
Ein einfaches aber effektives Lange-Kurz-Kontext-Netzwerk, das Langzeit-Intra-Sprecher-Modellierung und Kurzzeit-Inter-Sprecher-Modellierung in einer verschachtelten Weise nutzt, um die Sprechaktivität von Personen in Videos genau zu erkennen.