Основные понятия
Die Erweiterung der Contrastive Loss-Funktion auf drei oder mehr Modalitäten ermöglicht ein besseres Verständnis der Interaktionen zwischen Text, Bild und Video in Social-Media-Beiträgen.
Аннотация
Der Artikel beschreibt eine Erweiterung der Contrastive Loss-Funktion, um Daten mit mehr als zwei Modalitäten zu verarbeiten und zu analysieren. Bisher wurden Contrastive Loss-Funktionen hauptsächlich für bimodale Daten (Text und Bild) verwendet. Der Autor zeigt, wie die Funktion auf drei Modalitäten (Text, Bild, Video) erweitert werden kann und demonstriert die Anwendung auf Social-Media-Daten.
Kernpunkte:
Erweiterung der Triplet Loss- und Contrastive Loss-Funktionen auf N Modalitäten
Erstellung eines neuen öffentlichen Datensatzes von Telegram-Beiträgen mit Text, Bild und Video
Entwicklung und Evaluation von trimodalen CLIP-Modellen auf diesem Datensatz
Anwendung der trimodalen Modelle auf zwei OSINT-Szenarien: Klassifizierung von Beiträgen als pro-russisch oder pro-ukrainisch, Identifizierung des Ursprungsaccounts
Einführung eines neuartigen quadmodalen CLIP-Modells (Text, Bild, Video, Audio)
Die Ergebnisse zeigen, dass die Erweiterung der Contrastive Loss-Funktion auf drei Modalitäten die Leistung im Vergleich zu bimodalen Modellen verbessert. Die trimodalen Modelle erzielen bessere Ergebnisse bei der Artefakt-Rückgewinnung und der Klassifizierung von Social-Media-Inhalten.
Статистика
"Mein Körper nach zwei Nanosekunden, nachdem ich an der Position angekommen bin, auf die die Artillerie ununterbrochen feuert."
"Die Artillerie arbeitet ununterbrochen auf diese Position."
Цитаты
"Leider erfordern die meisten OSINT-Arbeiten den Großteil der schweren Arbeit manuell von menschlichen Betreibern."
"Um die Fähigkeiten der Computerbehörden im OSINT-Bereich weiter auszubauen, ist ein multimodales Verständnis von entscheidender Bedeutung."