Ein multimodales kontextuelles Modell zur Erkennung von Dialogstörungen in Echtzeit, das Audioaufnahmen und transkribierte Texte verarbeitet, um Probleme in Konversationen zwischen Nutzern und KI-Agenten zu erkennen und zu beheben.
Durch die Integration von visuellen und textuellen Prompts kann die Leistung von Multimodalen Großsprachmodellen bei objektorientierten Wahrnehmungsaufgaben deutlich verbessert werden.
Das Ziel dieses Forschungsprojekts ist es, ein KI-System zu entwickeln, das in Konversationen die Emotionen der Sprecher erkennt und die Ursachen dafür identifiziert. Dafür werden Texttranskripte, Audioaufnahmen und Videoaufnahmen der Konversationen analysiert.
SCANNER, ein zweistufiges Modell, nutzt effektiv Wissen aus verschiedenen Quellen, um die Leistung bei der Erkennung unbekannter Entitäten in NER-, MNER- und GMNER-Benchmarks zu verbessern. Darüber hinaus führt eine neuartige Selbstdistillationsmethode zu einer robusten und genauen Verarbeitung von Trainingsdaten mit inhärenten Unsicherheiten.
Das MER-MCE-Modell nutzt multimodale Informationen und Sprachmodelle (LLMs), um Emotionsursachen in Gesprächsdaten zu identifizieren, wobei es textuelle, visuelle und auditive Modalitäten berücksichtigt.
Ein vereinheitlichter Rahmen, der die Kausalität und Komplementarität zwischen Emotion und Emotionsursache erforscht, indem MERC und MECPE als zwei Maskierungsvorhersageprobleme reformuliert werden, um die Interaktion zwischen Emotion und Ursache zu verbessern.
Eine neuartige Methode zur Verbesserung der Diskriminierung und Verallgemeinerungsfähigkeit multimodaler Darstellungen durch Wissensübertragung von einem Lehrermodell und Einführung einer adaptiven Winkelkontraststärkung.
Die einheitliche visuelle Darstellung von Bildern und Videos ermöglicht Großsprachmodellen ein effizientes Verständnis beider Medien mit einer begrenzten Anzahl von visuellen Token.
Systematische Untersuchung und Verbesserung von Methoden zur effizienten Kopplung von Großsprachmodellen mit Wahrnehmungsmodulen für Bild-, Video- und Audiodaten, um Aufgaben wie Bildunterschriften und Fragebeantwortung zu lösen.
Ein einfaches und effizientes generatives Framework zur Verknüpfung von Entitäten in multimodalen Kontexten, das auf großen Sprachmodellen basiert und nur einen geringen Teil der Modellparameter feinabstimmt.