Der Artikel präsentiert einen neuartigen zweigabligen hierarchischen Ansatz namens "Comment-aided Video-Language Alignment (CVLA)" zur Erkennung von Humor in kurzen Videos. CVLA nutzt nicht nur die Rohdaten verschiedener Modalitäten, sondern erzeugt auch eine geeignete multimodale Darstellung, indem es die Video- und Sprachkomponenten in einen konsistenten semantischen Raum ausrichtet.
Der Ansatz umfasst drei Hauptkomponenten:
Um die Semantik der Video- und Sprachkomponenten optimal aufeinander abzustimmen, wird eine kontrastive Vortrainingstrategie mit umfangreichen ungelabelten Kurzvideo-Datensätzen eingesetzt. Dadurch können die Repräsentationen der einzelnen Modalitäten sowie die multimodale Fusionsrepräsentation effektiv aufeinander ausgerichtet werden.
Die experimentellen Ergebnisse auf zwei Humor-Erkennungsdatensätzen, DY11k und UR-FUNNY, zeigen, dass der CVLA-Ansatz deutlich bessere Leistungen erbringt als der Stand der Technik und mehrere wettbewerbsfähige Basisansätze.
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Yang Liu,Ton... às arxiv.org 04-15-2024
https://arxiv.org/pdf/2402.09055.pdfPerguntas Mais Profundas