Der Artikel präsentiert einen neuartigen zweigabligen hierarchischen Ansatz namens "Comment-aided Video-Language Alignment (CVLA)" zur Erkennung von Humor in kurzen Videos. CVLA nutzt nicht nur die Rohdaten verschiedener Modalitäten, sondern erzeugt auch eine geeignete multimodale Darstellung, indem es die Video- und Sprachkomponenten in einen konsistenten semantischen Raum ausrichtet.
Der Ansatz umfasst drei Hauptkomponenten:
Um die Semantik der Video- und Sprachkomponenten optimal aufeinander abzustimmen, wird eine kontrastive Vortrainingstrategie mit umfangreichen ungelabelten Kurzvideo-Datensätzen eingesetzt. Dadurch können die Repräsentationen der einzelnen Modalitäten sowie die multimodale Fusionsrepräsentation effektiv aufeinander ausgerichtet werden.
Die experimentellen Ergebnisse auf zwei Humor-Erkennungsdatensätzen, DY11k und UR-FUNNY, zeigen, dass der CVLA-Ansatz deutlich bessere Leistungen erbringt als der Stand der Technik und mehrere wettbewerbsfähige Basisansätze.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yang Liu,Ton... lúc arxiv.org 04-15-2024
https://arxiv.org/pdf/2402.09055.pdfYêu cầu sâu hơn