Das TT-BLIP-Modell besteht aus drei Hauptkomponenten: einer Merkmalsextraktionsschicht, einer Merkmalsfu-sionsschicht und einer Falschachrichtenerkennung.
In der Merkmalsextraktionsschicht werden Text-, Bild- und Bild-Text-Merkmale extrahiert. Für Textmerkmale werden BERT und BLIPTxt verwendet, für Bildmerkmale ResNet und BLIPImg, und für die Bild-Text-Korrelation wird BLIP eingesetzt.
In der Fusionsschicht wird ein neuartiger Multimodaler Tri-Transformer verwendet, um die Merkmale aus den drei Modalitäten zu integrieren. Der Tri-Transformer wendet drei Arten von Multi-Kopf-Aufmerksamkeitsmechanismen an: Selbstaufmerksamkeit für Textmerkmale und Kreuzaufmerksamkeit zwischen Text und Bild sowie Text und Bild-Text-Merkmalen. Dies stellt sicher, dass die textbasierten Merkmale, die für die Aufgabe entscheidend sind, stärker gewichtet werden, während die Bild- und Bild-Text-Kanäle unabhängig bleiben.
In der Falschachrichtenerkennung werden die integrierten Merkmale aus der Fusionsschicht verwendet, um zu bestimmen, ob der Inhalt echt oder falsch ist.
Die Experimente auf den Datensätzen Weibo und Gossipcop zeigen, dass TT-BLIP die besten Ergebnisse im Vergleich zu anderen State-of-the-Art-Modellen erzielt.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Eunjee Choi,... om arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12481.pdfDiepere vragen