Der Artikel präsentiert einen neuartigen zweigabligen hierarchischen Ansatz namens "Comment-aided Video-Language Alignment (CVLA)" zur Erkennung von Humor in kurzen Videos. CVLA nutzt nicht nur die Rohdaten verschiedener Modalitäten, sondern erzeugt auch eine geeignete multimodale Darstellung, indem es die Video- und Sprachkomponenten in einen konsistenten semantischen Raum ausrichtet.
Der Ansatz umfasst drei Hauptkomponenten:
Um die Semantik der Video- und Sprachkomponenten optimal aufeinander abzustimmen, wird eine kontrastive Vortrainingstrategie mit umfangreichen ungelabelten Kurzvideo-Datensätzen eingesetzt. Dadurch können die Repräsentationen der einzelnen Modalitäten sowie die multimodale Fusionsrepräsentation effektiv aufeinander ausgerichtet werden.
Die experimentellen Ergebnisse auf zwei Humor-Erkennungsdatensätzen, DY11k und UR-FUNNY, zeigen, dass der CVLA-Ansatz deutlich bessere Leistungen erbringt als der Stand der Technik und mehrere wettbewerbsfähige Basisansätze.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Yang Liu,Ton... um arxiv.org 04-15-2024
https://arxiv.org/pdf/2402.09055.pdfTiefere Fragen