Core Concepts
전 세계 30개 언어, 54개 지역에서 수집한 470만 건의 뉴스 헤드라인 데이터셋을 제공하여 언어 모델 학습, 미디어 연구 등 다양한 분야에서 활용할 수 있도록 함.
Abstract
이 데이터셋은 2020년 8월부터 2021년 11월까지 전 세계 30개 언어, 54개 지역에서 수집한 470만 건의 뉴스 헤드라인으로 구성되어 있습니다.
데이터 수집 과정:
News API를 통해 54개 지역, 7개 카테고리의 뉴스 헤드라인을 매일 수집했습니다.
중복 기사를 제거하고 저자 이름을 익명화했습니다.
비영어 기사는 구글 번역기를 통해 영어로 번역했습니다.
데이터 구조:
54개 JSON 파일로 구성되어 있으며, 각 파일은 해당 지역의 뉴스 헤드라인 목록을 포함합니다.
각 기사는 제목, 설명, 내용, URL, 이미지 URL, 게시 시간, 저자, 출처, 중복 게재 정보, 언어 등의 속성을 가집니다.
비영어 기사의 경우 영어 번역본 제목, 설명, 내용도 포함되어 있습니다.
데이터 분석 예시:
기사 제목 단어 빈도와 TF-IDF 점수를 이용해 같은 사건을 다룬 기사들을 클러스터링할 수 있습니다.
각 사건에 대한 언어별 보도 추이를 시각화하여 언어권별 보도 차이를 분석할 수 있습니다.
예상된 사건과 예상치 못한 사건의 보도 패턴에 차이가 있음을 확인할 수 있습니다.
이 데이터셋은 언어 모델 학습, 미디어 연구, 국제 관계 분석 등 다양한 분야에서 활용될 수 있는 유용한 자료입니다.
Stats
전체 데이터셋 크기는 약 7,419,089건의 기사로, 4,719,199개의 고유 기사로 구성되어 있습니다.
영어 기사가 1,128,233건으로 가장 많고, 그 다음으로 스페인어 455,952건, 프랑스어 288,328건 순입니다.
Quotes
"BABEL BRIEFINGS는 2020년 8월부터 2021년 11월까지 전 세계 30개 언어, 54개 지역에서 수집한 470만 건의 뉴스 헤드라인 데이터셋입니다."
"이 데이터셋은 언어 모델 학습, 미디어 연구, 국제 관계 분석 등 다양한 분야에서 활용될 수 있는 유용한 자료입니다."