Eine effiziente Methode, die LVLM-generierte Beschreibungen nachträglich korrigiert, um Objekthalluziationen zu reduzieren.
Durch die Nutzung der erlernten Repräsentationen von vortrainierten generativen Text-zu-Video-Diffusionsmodellen können Videoverstehensaufgaben wie die referenzbasierte Videoobjektsegmentierung deutlich verbessert werden, insbesondere in Bezug auf die zeitliche Konsistenz der Segmentierungsergebnisse.
TCNet, ein hybrides Netzwerk, extrahiert effektiv räumlich-zeitliche Informationen aus Trajektorien und korrelierten Regionen, um die Leistung der kontinuierlichen Gebärdenspracherkennung zu verbessern.
Durch das Abbilden visueller Beobachtungen auf aktionsbasierte atomare Konzepte kann die Ausrichtung zwischen Beobachtungen und Anweisungen vereinfacht und die Interpretierbarkeit der Aktionsentscheidungen verbessert werden.
Tiefe Lernmethoden haben in den letzten Jahren enorme Fortschritte in der visuellen Sprachanalyse erzielt, insbesondere bei der automatischen visuellen Spracherkennung und -generierung. Diese Arbeit bietet einen umfassenden Überblick über die jüngsten Entwicklungen in diesem Bereich, einschließlich Problemdefinitionen, Herausforderungen, Benchmark-Datensätze, Taxonomie bestehender Methoden und den aktuellen Stand der Technik.
Ein selbstgesteuertes, mehrstufiges Modell für die Interaktion zwischen Sprache und Bild, das die Fähigkeit zur sprachgesteuerten Lokalisierung durch Innovationen in der Netzwerkstruktur und im Lernmechanismus verbessert.