Das TT-BLIP-Modell besteht aus drei Hauptkomponenten: einer Merkmalsextraktionsschicht, einer Merkmalsfu-sionsschicht und einer Falschachrichtenerkennung.
In der Merkmalsextraktionsschicht werden Text-, Bild- und Bild-Text-Merkmale extrahiert. Für Textmerkmale werden BERT und BLIPTxt verwendet, für Bildmerkmale ResNet und BLIPImg, und für die Bild-Text-Korrelation wird BLIP eingesetzt.
In der Fusionsschicht wird ein neuartiger Multimodaler Tri-Transformer verwendet, um die Merkmale aus den drei Modalitäten zu integrieren. Der Tri-Transformer wendet drei Arten von Multi-Kopf-Aufmerksamkeitsmechanismen an: Selbstaufmerksamkeit für Textmerkmale und Kreuzaufmerksamkeit zwischen Text und Bild sowie Text und Bild-Text-Merkmalen. Dies stellt sicher, dass die textbasierten Merkmale, die für die Aufgabe entscheidend sind, stärker gewichtet werden, während die Bild- und Bild-Text-Kanäle unabhängig bleiben.
In der Falschachrichtenerkennung werden die integrierten Merkmale aus der Fusionsschicht verwendet, um zu bestimmen, ob der Inhalt echt oder falsch ist.
Die Experimente auf den Datensätzen Weibo und Gossipcop zeigen, dass TT-BLIP die besten Ergebnisse im Vergleich zu anderen State-of-the-Art-Modellen erzielt.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Eunjee Choi,... klokken arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12481.pdfDypere Spørsmål