Core Concepts
BABEL BRIEFINGS ist ein neuer Datensatz mit 4,7 Millionen Nachrichtenüberschriften aus 30 Sprachen und 54 Orten weltweit, der für die Verarbeitung natürlicher Sprache und Medienstudien entwickelt wurde.
Abstract
BABEL BRIEFINGS ist ein neuer Datensatz, der 4,7 Millionen Nachrichtenüberschriften aus dem Zeitraum August 2020 bis November 2021 in 30 Sprachen und 54 Orten weltweit umfasst. Der Datensatz wurde entwickelt, um eine breite Palette an Analysen zur globalen Nachrichtenberichterstattung und kulturellen Narrativen zu ermöglichen.
Der Datensatz wurde in drei Schritten gesammelt: Zunächst wurden die Schlagzeilen mithilfe der News API täglich für jede Kombination aus 54 Orten und 7 Kategorien gesammelt. Anschließend wurden doppelte Artikel zusammengeführt und die nicht-englischen Artikel maschinell übersetzt.
Der Datensatz ist so strukturiert, dass jede Nachricht als JSON-Objekt mit Eigenschaften wie Titel, Beschreibung, Inhalt, URL, Autor, Quelle und Sprache dargestellt wird. Zusätzlich enthält jede Nachricht Informationen zu den Orten und Kategorien, in denen sie erschienen ist.
Als Beispielanalyse wurde ein einfaches Clusterverfahren verwendet, um Artikel zu gruppieren, die über dasselbe Ereignis berichten. Anschließend wurden die "Ereignissignaturen" visualisiert, um zu zeigen, wie sich die Berichterstattung über ein Ereignis in verschiedenen Sprachen über die Zeit entwickelt. Die Ergebnisse zeigen deutliche Unterschiede zwischen "erwarteten" und "unerwarteten" Ereignissen in Bezug auf den zeitlichen Verlauf der Berichterstattung.
Insgesamt bietet BABEL BRIEFINGS ein reichhaltiges Datenmaterial für eine Vielzahl von Forschungsarbeiten im Bereich der Verarbeitung natürlicher Sprache sowie der Medien- und Sozialwissenschaften.
Stats
Es wurden insgesamt 7.419.089 Instanzen von 4.719.199 eindeutigen Artikeln zwischen dem 8. August 2020 und dem 29. November 2021 gesammelt.
Quotes
Keine relevanten Zitate identifiziert.