Core Concepts
BABEL BRIEFINGSは、2020年8月から2021年11月にかけて30か国語54地域から収集した470万件を超えるニュースヘッドラインのデータセットである。自然言語処理やメディア研究のための高品質なデータセットとして活用できる。
Abstract
BABEL BRIEFINGSは、世界中から収集した多様な言語のニュースヘッドラインのデータセットである。2020年8月から2021年11月にかけて、30か国語54地域から470万件を超えるニュースヘッドラインを収集した。
データセットの構造は以下の通り:
- 54のJSONファイルで構成され、それぞれが1つの地域のニュースヘッドラインを含む
- 各ニュースヘッドラインはタイトル、説明、本文、URL、公開日時、著者、ソース、言語などの情報を持つ
- 同一の記事が複数の地域や言語で掲載された場合、それらのインスタンスが記録される
データセットの分析例として、以下のような内容を示した:
- TF-IDFを用いて同一のイベントについて報道された記事をクラスタリングし、言語ごとの報道の違いを可視化した
- 予期されたイベントと予期せぬイベントでは、言語ごとの報道の推移に違いがあることを示した
このデータセットは自然言語処理やメディア研究の分野で幅広く活用できる。言語の壁を越えた世界中のニュース報道の違いを分析できるため、文化的な違いや偏見の発見などに役立つ。
Stats
世界中から収集した470万件を超えるニュースヘッドラインを含む。
言語別の記事数は以下の通り:
英語: 1,128,233件
スペイン語: 455,952件
フランス語: 288,328件
中国語: 270,887件
ドイツ語: 259,718件
ポルトガル語: 243,829件
アラビア語: 178,854件
インドネシア語: 131,252件
イタリア語: 129,005件
トルコ語: 122,724件